Nytt @METR_Evals forskningsanteckning från @whitfill_parker, @cherylwoooo, Nate Rush och mig. (främst Parker!) vi finner att *hälften* av SWE-bench-verifierade lösningar från Sonnet 3.5 till 4.5 generationens AI:er *som bedöms som godkänd* avvisas av projektets underhållare.