Uusi @METR_Evals tutkimusmuistio @whitfill_parker:lta, @cherylwoooo:lta, Nate Rushilta ja minulta. (Enimmäkseen Parker!) havaitsemme, että *puolet* SWE-bench Verified -ratkaisuista Sonnet 3.5–4.5 -sukupolvien tekoälyistä *jotka arvioidaan läpäiseviksi*, hylätään projektin ylläpitäjien toimesta.