Penso che il RL con ricompense verificabili diventerà sempre più importante per spingere i LLM verso il loro "momento AlphaZero". Probabilmente inizierà con la programmazione, per poi estendersi alla matematica, alla fisica e ad altri ambiti in cui i modelli possono auto-esplorarsi, scoprire soluzioni fuori distribuzione che gli esseri umani potrebbero mai immaginare e verificarle utilizzando un segnale di ricompensa assoluto (0/1). Questo mi ricorda anche @elonmusk che parla di un futuro in cui i programmi potrebbero essere generati direttamente come binari, senza passare attraverso il tradizionale processo di compilazione. Questo potrebbe effettivamente essere possibile se i LLM possono generare codice binario e poi eseguirlo direttamente contro una ricompensa verificabile.