最新のオルモモデル、オルモハイブリッドを紹介できることを楽しみにしています。これは、3:1の比率でゲート付きデルタネット(GDN)レイヤーをフル注意したモデルです。これはQwen 3.5やKimi Linearのような多くの他の開発に続くものです。完全にオープンなモデルを公開し、これらのアーキテクチャの変更がフルスタックにどのような影響を与えるかを人々が研究できるという絶好のタイミングです。 個人的には、トレーニング後のトレーニングをうまく機能させる過程で多くを学びました。事前トレーニングのデータが同じでも、トレーニング後のトレーニングは全く異なります!特に、これらの新しいアーキテクチャ向けのOSSツールは非常に限られています。新しいアーキテクチャは標準的なトランスフォーマーやDeepSeek MoEのような人気モデルよりもはるかに遅いです。これは効率的でオープンなモデルの最前線を押し広げ続けるために、私たちが共にできる仕事です。 この活動は@lambdaviking @tyleraromeroらによって主導されました。研修後の作業に少しでも関わることができて、とても楽しいプロジェクトでした! なぜこの問題が重要かを説明したブログ記事を書きましたが、数年前にはMambaが大人気だった頃にはハイブリッドモデルはうまくいきませんでした。さらに、この論文は現代のディープラーニング/言語モデリングのスケーリング理論の入り口としても最適です。楽しんでフィードバックをお送りください!
@interconnectsai このプロジェクトの多くの計算は@LambdaAPIによって提供されました。これがなければ、このオルモハイブリッドは存在しなかったでしょう。オープンコミュニティの支援に感謝します。
67