Я думаю, что RL с проверяемыми наградами станет все более важным для продвижения LLM к своему собственному «моменту AlphaZero». Это, вероятно, начнется с программирования, затем распространится на математику, физику и другие области, где модели могут самостоятельно исследовать, находить решения вне распределения, которые люди никогда не могли бы представить, и проверять их с помощью абсолютного сигнала награды (0/1). Это также напоминает мне о том, как @elonmusk говорил о будущем, где программы могут быть сгенерированы непосредственно в бинарном виде, без прохождения через традиционный процесс компиляции. Это может быть действительно возможно, если LLM смогут генерировать бинарный код, а затем выполнять его непосредственно с использованием проверяемой награды.