Recept na dnešní modely frontier uvažování je překvapivě podobný AlphaGo: 1) Napodobovat velké množství lidských dat 2) Výpočty na škále pro lepší uvažování (tehdy to bylo Monte Carlo Tree Search, dnes je to Chain of Thought) 3) Použít RL k překročení hranic napodobování