Modelos internacionales en ARC-AGI-2 Semi Privado - Kimi K2.5 (@Kimi_Moonshot): 12%, $0.28 - Minimax M2.5 (@MiniMax_AI): 5%, $0.17 - GLM-5 (@Zai_org): 5%, $0.27 - Deepseek V3.2 (@deepseek_ai): 4%, $0.12 Estos modelos tienen puntuaciones por debajo de los laboratorios fronterizos de julio de 2025
Solo realizamos pruebas semi-privadas con proveedores que tienen acuerdos de retención de datos de confianza. Qwen 3 Max Thinking no está incluido por esta razón.
- Tabla de clasificación: - Reproducir los resultados: ... - Política de pruebas: - La Fundación del Premio ARC está contratando: - Ver resultados en bruto:
202