Gemini 3 Flash actualmente muestra la tasa de éxito más alta para OpenClaw en PinchBench, con un 95.1 %. PinchBench es un benchmark abierto que evalúa cómo se desempeñan los modelos con OpenClaw en escenarios del mundo real. Se centra en el uso práctico en lugar de pruebas de capacidad aisladas. Las tareas incluyen escribir código, gestionar archivos, programar y realizar investigaciones. PinchBench analiza aspectos como: - Uso de herramientas. ¿Puede el modelo llamar a las herramientas adecuadas con los parámetros correctos? - Razonamiento en múltiples pasos. ¿Puede encadenar acciones para completar tareas complejas? - Desorden del mundo real. ¿Puede manejar instrucciones ambiguas e información incompleta? - Resultados prácticos. ¿Realmente creó el archivo, envió el correo electrónico o programó la reunión? Tabla de clasificación completa a continuación. 1/2