Es gibt Bedenken, dass die Menschen aufhören werden, ihren Verstand mit LLMs zu nutzen, aber das Management mehrerer KI-Agenten-Threads parallel war einige der kognitiv intensivsten Arbeiten, die ich seit Jahren gemacht habe.
Idee für das Codex-Team "Übernachtmodus". Im Moment setze ich ein paar Aufgaben und sie schaffen es vielleicht in 30-60 Minuten. Aber ich schlafe noch.
Wenn ich also eine Zeit festlegen könnte, bis wann sie erledigt sein sollten (z.B. 6 Uhr morgens), dann könntest du mir während dieser Zeit einen rabattierten Inferenzmodus ähnlich dem Batch-Modus anbieten.
BullshitBench v2 ist draußen! Es ist einer der wenigen Benchmarks, bei denen die Modelle im Allgemeinen nicht besser werden (außer Claude) und bei denen das Denken nicht hilft.
Was ist neu: 100 neue Fragen, nach Bereichen (Programmierung (40 Fragen), Medizin (15), Recht (15), Finanzen (15), Physik (15)), über 70 getestete Modellvarianten. BullshitBench hat bereits 380 Starts auf GitHub - alle Fragen, Skripte, Antworten und Urteile sind dort, also schaut es euch an.
TL;DR:
- Ergebnisse repliziert - die neuesten Modelle von @AnthropicAI erzielen außergewöhnlich gute Ergebnisse
- @Alibaba_Qwen ist ein weiterer sehr starker Performer
- OpenAI- und Google-Modelle schneiden schlecht ab und verbessern sich nicht
- Die Bereiche zeigen nicht viel Unterschied - die Raten der BS-Erkennung sind in allen Bereichen etwa gleich
- Denken hat, wenn überhaupt, einen negativen Effekt
- Neuere Modelle schneiden nicht viel besser ab als ältere (außer Anthropic)
Links:
- Daten-Explorer:
- GitHub:
Ich empfehle dringend den Daten-Explorer, wo ihr die Daten sowie die Fragen und Musterantworten studieren könnt.