La evaluación de rendimiento de los modelos de lenguaje de IA en la tarea de agente OpenClaw se realizó mediante la prueba de referencia PinchBench. Los resultados muestran que Gemini 3 Flash lidera con una tasa de éxito del 95.1% en las tareas de OpenClaw, seguido por minimax-m2.1 y kimi-k2.5 con un 93.6% y un 93.4% respectivamente. Claude Sonnet 4.5 tiene un 92.7%, mientras que GPT-4o alcanza un 85.2%.