@whitfill_parker, @cherylwoooo, Nate Rush ve benden yeni @METR_Evals araştırma notu. (özellikle Parker!) Sonnet 3.5-4.5 nesil yapay zekalarından *geçti* olarak derecelendirilen SWE-bench Doğrulanmış çözümlerin *yarısının* proje yöneticileri tarafından reddedildiğini görüyoruz.