Excité de partager le dernier modèle Olmo : Olmo Hybrid. C'est un modèle avec des couches de delta net (GDN) en ratio 3:1 avec attention complète. Il suit de nombreux autres développements comme Qwen 3.5 et Kimi Linear. C'est un moment incroyable pour sortir un modèle entièrement ouvert afin que les gens puissent étudier comment ces changements d'architecture impactent l'ensemble de la pile. Personnellement, j'ai beaucoup appris en réalisant le travail de post-formation. Même si les données sont identiques pour la préformation, la post-formation est très différente ! En particulier, les outils OSS pour ces nouvelles architectures sont vraiment limités. Les nouvelles architectures sont beaucoup plus lentes que les transformateurs standard ou des modèles populaires comme DeepSeek MoEs. C'est un travail que nous pouvons faire ensemble pour continuer à repousser les frontières des modèles ouverts et efficaces. Ce travail a été dirigé par @lambdaviking @tyleraromero et d'autres. J'ai eu l'occasion de jouer un rôle plus petit dans la réalisation du travail de post-formation, projet super amusant ! J'ai rédigé un article de blog qui explique pourquoi cela compte et pourquoi les modèles hybrides ne fonctionnaient pas il y a quelques années lorsque Mamba était super populaire. De plus, cet article est un excellent point d'entrée pour la théorie de mise à l'échelle de l'apprentissage profond / du modélisation du langage moderne. Profitez-en et envoyez vos retours !
@interconnectsai Une grande partie du calcul pour ce projet a été fournie par @LambdaAPI. Sans cela, cet Olmo Hybrid n'existerait pas, merci pour le soutien de la communauté ouverte.
58