Le benchmark PinchBench évalue les performances des modèles de langage AI dans les tâches d'agent OpenClaw. Les résultats montrent que Gemini 3 Flash réussit les tâches OpenClaw avec un taux de réussite de 95,1 %, tandis que minimax-m2.1 et kimi-k2.5 se classent respectivement 2e et 3e avec 93,6 % et 93,4 %. Claude Sonnet 4.5 est à 92,7 %, et GPT-4o à 85,2 %.