La ricetta dietro i modelli di ragionamento all'avanguardia di oggi è sorprendentemente simile ad AlphaGo: 1) Imitare grandi quantità di dati umani 2) Scalare il calcolo dell'inferenza per ragionare meglio (all'epoca era la Ricerca Monte Carlo, oggi è Chain of Thought) 3) Utilizzare il RL per andare oltre l'imitazione