トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
単純にLLMにガウスノイズを加え(1ステップ—反復なし、学習率なし、勾配なし)、アンサンブル化することで、数学推論、コーディング、執筆、化学の課題において標準的なGRPO/PPOと同等かそれ以上の性能を達成できます。このアルゴリズムはRandOptと呼んでいます。
これが特定のモデルに限定されないことを確認するため、Qwen、Llama、OLMo3、VLMでテストしました。
これは何が原因なのでしょうか?私たちは、事前学習済みLLM周辺のガウス探索近傍では、多様なタスクエキスパートが密に分布していることを発見しました。これは私たちが「ニューラルシケッツ」と呼ぶ領域です。
論文:
コード:
ウェブサイト:

トップ
ランキング
お気に入り
