単純にLLMにガウスノイズを加え(1ステップ—反復なし、学習率なし、勾配なし)、アンサンブル化することで、数学推論、コーディング、執筆、化学の課題において標準的なGRPO/PPOと同等かそれ以上の性能を達成できます。このアルゴリズムはRandOptと呼んでいます。 これが特定のモデルに限定されないことを確認するため、Qwen、Llama、OLMo3、VLMでテストしました。 これは何が原因なのでしょうか?私たちは、事前学習済みLLM周辺のガウス探索近傍では、多様なタスクエキスパートが密に分布していることを発見しました。これは私たちが「ニューラルシケッツ」と呼ぶ領域です。 論文: コード: ウェブサイト: