Este resultado de BullshitBench explica en gran medida la intuición generalizada de que Claude es el mejor vehículo diario, a pesar de los impresionantes benchmarks de Google y OAI. Contrasta BullshitBench con los benchmarks de resolución de problemas. Todas estas últimas presuponen soluciones correctas. Pero en la vida real, los problemas están mal definidos y a menudo no está claro qué preguntas merecen la pena hacerse o incluso tienen respuesta. Necesitas un modelo que pueda desviarte del camino equivocado — es decir, llamar mentira.