Modele internaționale pe ARC-AGI-2 Semi Private - Kimi K2.5 (@Kimi_Moonshot): 12%, $0.28 - Minimax M2.5 (@MiniMax_AI): 5%, 0,17 $ - GLM-5 (@Zai_org): 5%, 0,27 $ - Deepseek V3.2 (@deepseek_ai): 4%, $0,12 Aceste modele au scoruri sub frontier labs din iulie 2025
Efectuăm doar teste semi-private cu furnizori care au acorduri de păstrare a datelor de încredere. Qwen 3 Max Thinking nu este inclus din acest motiv.
- Clasament: - Reproduc rezultatele: ... - Politica de testare: - Fundația Premiului ARC angajează: - Vizualizați rezultatele brute:
233