Nytt @METR_Evals forskningsnotat fra @whitfill_parker, @cherylwoooo, Nate Rush og meg. (hovedsakelig Parker!) vi finner at *halvparten* av SWE-bench Verified løsninger fra Sonnet 3.5 til 4.5 generasjons AI-er *som vurderes som beståt* blir avvist av prosjektets vedlikeholdere.