Este resultado de BullshitBench ayuda a explicar la intuición generalizada de que Claude es el mejor para el uso diario, a pesar de los impresionantes benchmarks de Google y OAI. Contrasta BullshitBench con los benchmarks de resolución de problemas. Todos estos últimos presuponen soluciones correctas. Pero en la vida real, los problemas están mal definidos y a menudo no está claro qué preguntas valen la pena hacer o incluso si tienen respuestas. Necesitas un modelo que pueda desviarte del camino equivocado — es decir, que te diga que es una tontería.