Các mô hình quốc tế trên ARC-AGI-2 Bán riêng - Kimi K2.5 (@Kimi_Moonshot): 12%, $0.28 - Minimax M2.5 (@MiniMax_AI): 5%, $0.17 - GLM-5 (@Zai_org): 5%, $0.27 - Deepseek V3.2 (@deepseek_ai): 4%, $0.12 Các mô hình này có điểm số thấp hơn các phòng thí nghiệm biên giới tháng 7 năm 2025
Chúng tôi chỉ tiến hành thử nghiệm Bán Riêng với các nhà cung cấp có thỏa thuận giữ dữ liệu đáng tin cậy. Qwen 3 Max Thinking không được bao gồm vì lý do này.
- Bảng xếp hạng: - Tái tạo kết quả: ... - Chính sách thử nghiệm: - Quỹ Giải thưởng ARC đang tuyển dụng: - Xem kết quả thô:
209