Esse resultado do BullshitBench explica muito a intuição generalizada de que o Claude é o melhor veículo para o dia a dia, apesar dos benchmarks impressionantes do Google e da OAI. Compare o BullshitBench com os benchmarks de resolução de problemas. Todas as últimas pressupõem soluções corretas. Mas na vida real, os problemas são mal definidos e muitas vezes não está claro quais perguntas valem a pena ser feitas ou mesmo que tenham resposta. Você precisa de um modelo que possa te desviar do caminho errado — ou seja, chamar de besteira.