Nová @METR_Evals výzkumná poznámka od @whitfill_parker, @cherylwoooo, Natea Rushe a mě. (hlavně Parker!) zjistili jsme, že *polovina* SWE-bench ověřených řešení z generace AI Sonnet 3.5 až 4.5 *které jsou hodnoceny jako úspěšné* je projektovými správci odmítnuta.