Тестирование PinchBench оценивает производительность AI больших языковых моделей в задачах OpenClaw. Результаты показывают, что Gemini 3 Flash успешно справляется с задачами OpenClaw с коэффициентом успеха 95,1%, в то время как minimax-m2.1 и kimi-k2.5 занимают 2-е и 3-е места с 93,6% и 93,4% соответственно. Claude Sonnet 4.5 имеет 92,7%, а GPT-4o — 85,2%.