Internationale modellen op ARC-AGI-2 Semi Privé - Kimi K2.5 (@Kimi_Moonshot): 12%, $0.28 - Minimax M2.5 (@MiniMax_AI): 5%, $0.17 - GLM-5 (@Zai_org): 5%, $0.27 - Deepseek V3.2 (@deepseek_ai): 4%, $0.12 Deze modellen scoren onder de grenslaboratoria van juli 2025
We voeren alleen semi-private tests uit met aanbieders die vertrouwde gegevensbewaarovereenkomsten hebben. Qwen 3 Max Thinking is om deze reden niet inbegrepen.
- Ranglijst: - Resultaten reproduceren: ... - Testbeleid: - ARC Prize Foundation is aan het werven: - Bekijk ruwe resultaten:
205