Actualmente, Gemini 3 Flash muestra la tasa de éxito más alta de OpenClaw en PinchBench, con un 95,1 %. PinchBench es un benchmark abierto que evalúa cómo se comportan los modelos con OpenClaw en escenarios del mundo real. Se centra en el uso práctico más que en pruebas de capacidad aisladas. Las tareas incluyen escribir código, gestionar archivos, planificar e investigar. PinchBench analiza cosas como: - Uso de herramientas. ¿Puede el modelo llamar a las herramientas adecuadas con los parámetros correctos? - Razonamiento en varios pasos. ¿Puede encadenar acciones para completar tareas complejas? - Caos en el mundo real. ¿Puede manejar instrucciones ambiguas e información incompleta? - Resultados prácticos. ¿Realmente creó el archivo, envió el correo electrónico o programó la reunión? Tabla de clasificación completa a continuación. 1/2