Sunt entuziasmat să vă prezint cel mai nou model Olmo: Olmo Hybrid. Acesta este un model cu straturi de rețea delta cu poartă (GDN) într-un raport de 3:1, cu atenție maximă. Urmează multe alte evoluții precum Qwen 3.5 și Kimi Linear. Este un moment incredibil să lansezi un model complet deschis, astfel încât oamenii să poată studia cum aceste schimbări arhitecturale afectează întreaga stivă. Personal, am învățat multe făcând ca post-instruirea să funcționeze. Chiar dacă datele sunt identice pentru pre-antrenament, post-antrenamentul este foarte diferit! În special, instrumentele OSS pentru aceste noi arhitecturi sunt foarte limitate. Noile arhitecturi sunt mult mai lente decât transformatoarele standard sau modelele populare precum DeepSeek MoEs. Aceasta este o muncă pe care o putem face împreună pentru a continua să împingem frontiera modelelor eficiente și deschise. Această lucrare a fost condusă de @lambdaviking @tyleraromero și alții. Am avut ocazia să am un rol mai mic în a face ca post-instruirea să funcționeze, un proiect super distractiv! Am scris o postare pe blog în care explic de ce contează acest lucru, iar modelele hibride nu funcționau acum câțiva ani, când Mamba era foarte populară. În plus, această lucrare este un punct excelent de intrare pentru teoria modernă a scalării în deep learning / modelarea limbajului. Bucură-te și trimite feedback!
@interconnectsai O mare parte din calculul acestui proiect a fost asigurat de @LambdaAPI. Fără el, acest Olmo Hybrid nu ar exista, mulțumesc pentru sprijinul comunității deschise.
134