分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

単純にLLMにガウスノイズを加え(1ステップ—反復なし、学習率なし、勾配なし)、アンサンブル化することで、数学推論、コーディング、執筆、化学の課題において標準的なGRPO/PPOと同等かそれ以上の性能を達成できます。このアルゴリズムはRandOptと呼んでいます。これが特定のモデルに限定されないことを確認するため、Qwen、Llama、OLMo3、VLMでテストしました。これは何が原因なのでしょうか?私たちは、事前学習済みLLM周辺のガウス探索近傍では、多様なタスクエキスパートが密に分布していることを発見しました。これは私たちが「ニューラルシケッツ」と呼ぶ領域です。論文: コード: ウェブサイト:

トップ

ランキング

お気に入り