Международные модели на ARC-AGI-2 Полуприватные - Kimi K2.5 (@Kimi_Moonshot): 12%, $0.28 - Minimax M2.5 (@MiniMax_AI): 5%, $0.17 - GLM-5 (@Zai_org): 5%, $0.27 - Deepseek V3.2 (@deepseek_ai): 4%, $0.12 Эти модели имеют оценки ниже лабораторий на границе июля 2025 года
Мы проводим только полуприватное тестирование с провайдерами, у которых есть надежные соглашения о хранении данных. Qwen 3 Max Thinking не включен по этой причине.
- Рейтинг: - Воспроизвести результаты: ... - Политика тестирования: - Фонд ARC Prize нанимает: - Просмотреть сырые результаты:
207