Modelli internazionali su ARC-AGI-2 Semi Private - Kimi K2.5 (@Kimi_Moonshot): 12%, $0.28 - Minimax M2.5 (@MiniMax_AI): 5%, $0.17 - GLM-5 (@Zai_org): 5%, $0.27 - Deepseek V3.2 (@deepseek_ai): 4%, $0.12 Questi modelli hanno punteggi inferiori ai frontier labs di luglio 2025
Effettuiamo solo test semi-privati con fornitori che hanno accordi di retention dei dati affidabili. Qwen 3 Max Thinking non è incluso per questo motivo.
- Classifica: - Riproduci i risultati: ... - Politica di test: - La Fondazione ARC Prize sta assumendo: - Visualizza i risultati grezzi:
205