Gleder meg til å dele den nyeste Olmo-modellen: Olmo Hybrid. Dette er en modell med gated delta net (GDN)-lag i et 3:1-forhold med full oppmerksomhet. Den følger mange andre utviklinger som Qwen 3.5 og Kimi Linear. Det er utrolig timing å slippe en helt åpen modell slik at folk kan studere hvordan disse arkitekturendringene påvirker fullstacken. Personlig lærte jeg mye for å få ettertreningen til å fungere. Selv om dataene er identiske for fortrening, er ettertrening veldig annerledes! Spesielt er OSS-verktøyene for disse nye arkitekturene veldig begrensede. Nye arkitekturer er mye tregere enn standardtransformatorer eller populære modeller som DeepSeek MoEs. Dette er arbeid vi kan gjøre sammen for å fortsette å presse grensen for effektive, åpne modeller. Dette arbeidet ble ledet av @lambdaviking @tyleraromero og andre. Jeg fikk spille en mindre rolle i å få det til å fungere etter treningen, supermorsomt prosjekt! Jeg har skrevet et blogginnlegg som forklarer hvorfor dette er viktig, og hybridmodeller fungerte ikke for noen år siden da Mamba var veldig populært. I tillegg er denne artikkelen et flott inngangspunkt for moderne teori om dyp læring / språkmodellering. Kos deg og send tilbakemeldinger!
@interconnectsai Mye av beregningen for dette prosjektet ble levert av @LambdaAPI. Uten den ville ikke denne Olmo Hybrid eksistert, takk for støtten fra det åpne fellesskapet.
60