Nová @METR_Evals výzkumná poznámka od @whitfill_parker, @cherylwoooo, Natea Rushe a mě. (hlavně Parker!)
zjistili jsme, že *polovina* SWE-bench ověřených řešení z generace AI Sonnet 3.5 až 4.5 *které jsou hodnoceny jako úspěšné* je projektovými správci odmítnuta.
Upřímně, panel pokročilých uživatelů ve stylu Consumer Reports by mohl být lepší než METR atd. pro měření pokroku AI, mnohem odolnější vůči špičkám.
Nechci znít skepticky, jako zkušený uživatel si myslím, že za posledních pár měsíců byl opravdu znatelný pokrok.