C'è preoccupazione che le persone smettano di usare il cervello con gli LLM, ma gestire diversi thread di agenti AI in parallelo è stato uno dei lavori più cognitivamente intensivi che abbia fatto negli ultimi anni
Idea per il team Codex "modalità notturna". In questo momento imposto alcuni compiti e potrebbero completarli in 30-60 minuti. Ma io sto ancora dormendo.
Quindi, se potessi impostare un orario entro il quale dovrebbero essere completati (ad esempio, le 6 del mattino), allora potresti darmi un'inferenza scontata durante quel tempo, simile alla modalità batch.
BullshitBench v2 è uscito! È uno dei pochi benchmark in cui i modelli generalmente non stanno migliorando (eccetto Claude) e dove il ragionamento non aiuta.
Cosa c'è di nuovo: 100 nuove domande, per dominio (programmazione (40 Q), medico (15), legale (15), finanza (15), fisica (15)), oltre 70 varianti di modelli testati. BullshitBench ha già raggiunto 380 avvii su GitHub - tutte le domande, script, risposte e giudizi sono lì, quindi dai un'occhiata.
TL;DR:
- Risultati replicati - i modelli più recenti di @AnthropicAI stanno ottenendo punteggi eccezionali
- @Alibaba_Qwen è un altro performer molto forte
- I modelli di OpenAI e Google non stanno andando bene e non stanno migliorando
- I domini non mostrano molte differenze - i tassi di rilevamento di BS sono più o meno gli stessi in tutti i domini
- Il ragionamento, se mai, ha un effetto negativo
- I modelli più recenti non fanno molto meglio di quelli più vecchi (eccetto Anthropic)
Link:
- Esploratore dati:
- GitHub:
Consiglio vivamente l'esploratore dati dove puoi studiare i dati e le domande & risposte campione.