MIT, LLM mantığının neden duvara vurulduğunu ve bunu nasıl aşacağını sessizce açıklayan bir makale yayımladı. Yaygın hikaye, modellerin ölçek, veri veya zeka eksikliği nedeniyle zor problemlerde başarısız olduğudur. Bu makale çok daha yapısal bir şeyi savunuyor: modeller gelişmeyi durduruyor çünkü öğrenme sinyali kayboluyor. Bir görev çok zorlaştığında, başarı oranları sıfıra düşer, pekiştirme öğrenmenin optimize edecek hiçbir şeyi kalmaz ve akıl yürütme durağanlaşır. Başarısızlık bilişsel değil, pedagojiktir. Yazarlar basit ama radikal bir yeniden çerçeveleme öneriyor. Modellerin daha zor problemleri nasıl çözeceğini sormak yerine, modellerin kendilerine öğreten problemleri nasıl üretebileceğini sorarlar. Sistemleri olan SOAR, tek bir önceden eğitilmiş modeli iki role ayırıyor: son derece zor hedeflere başvuran öğrenci ve yeni eğitim problemleri üreten bir öğretmen. Sorun şu ki, öğretmen zekice veya gerçekçi sorular ürettiği için ödüllendirilmiyor. Yalnızca öğrencinin performansı sabit bir gerçek değerlendirme problemi setinde iyileşirse ödüllendirilir. Gelişme olmadan, hiç ödül demek. Bu teşvik her şeyi yeniden şekillendiriyor. Öğretmen, öğrencinin mevcut yetenek sınırları içinde yer alan orta seviye, basamak taşı problemleri oluşturmayı öğrenir. Bu sorunlar, hedef görevin basitleştirilmiş versiyonları değildir ve dikkat çekici bir şekilde, doğru çözümler bile gerektirmezler. Önemli olan, yapılarının öğrenciyi doğru türde akıl yürütmeyi uygulamaya zorlamasıdır; böylece doğrudan denetim başarısız olsa bile gradyan sinyalinin ortaya çıkmasına izin verir. Deneysel sonuçlar bu noktayı acı verici şekilde netleştiriyor. Modellerin sıfır başarıyla başladığı ve standart güçlendirme öğrenmenin tamamen düz durduğu benchmarklarda, SOAR çıkmazı kırıyor ve performansı istikrarlı bir şekilde iyileştiriyor. Model, öğrenilebilirlik sınırını daha iyi düşünerek değil, kendisi için daha iyi bir öğrenme ortamı inşa ederek kaçırır. Daha derin ima ise rahatsız edici. Birçok sözde "akıl yürütme sınırı" zekanın sınırları olmayabilir. Bunlar, dünyanın ücretsiz öğrenilebilir problemler sunduğunu varsayan eğitim sistemlerinin eserleridir. Bu makale, modellerin kendi müfredatlarını şekillendirebilseydi, akıl yürütme platolarının temel engeller değil, mühendislik problemlerine dönüştüğünü öne sürüyor. Yeni mimariler yok, ekstra insan verisi, daha büyük modeller yok. Sadece ödüllendirdiğimiz şeyde bir değişim: cevaplar yerine öğrenme ilerlemesi.