Il benchmark PinchBench valuta le prestazioni dei modelli di linguaggio AI nelle attività di OpenClaw. I risultati mostrano che Gemini 3 Flash ha un tasso di successo del 95,1% nelle attività di OpenClaw, seguito da minimax-m2.1 e kimi-k2.5 con rispettivamente il 93,6% e il 93,4%. Claude Sonnet 4.5 ha ottenuto il 92,7%, mentre GPT-4o si attesta all'85,2%.