Modelos internacionais no ARC-AGI-2 Semi Privado - Kimi K2.5 (@Kimi_Moonshot): 12%, $0.28 - Minimax M2.5 (@MiniMax_AI): 5%, $0.17 - GLM-5 (@Zai_org): 5%, $0.27 - Deepseek V3.2 (@deepseek_ai): 4%, $0.12 Estes modelos têm pontuações abaixo dos laboratórios de fronteira de julho de 2025
Realizamos apenas testes Semi-Privados com fornecedores que têm acordos de retenção de dados confiáveis. O Qwen 3 Max Thinking não está incluído por esta razão.
- Classificação: - Reproduzir os resultados: ... - Política de testes: - A Fundação do Prémio ARC está a contratar: - Ver resultados brutos:
232