Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Gleder meg til å dele den nyeste Olmo-modellen: Olmo Hybrid. Dette er en modell med gated delta net (GDN)-lag i et 3:1-forhold med full oppmerksomhet. Den følger mange andre utviklinger som Qwen 3.5 og Kimi Linear. Det er utrolig timing å slippe en helt åpen modell slik at folk kan studere hvordan disse arkitekturendringene påvirker fullstacken.
Personlig lærte jeg mye for å få ettertreningen til å fungere. Selv om dataene er identiske for fortrening, er ettertrening veldig annerledes! Spesielt er OSS-verktøyene for disse nye arkitekturene veldig begrensede. Nye arkitekturer er mye tregere enn standardtransformatorer eller populære modeller som DeepSeek MoEs. Dette er arbeid vi kan gjøre sammen for å fortsette å presse grensen for effektive, åpne modeller.
Dette arbeidet ble ledet av @lambdaviking @tyleraromero og andre. Jeg fikk spille en mindre rolle i å få det til å fungere etter treningen, supermorsomt prosjekt!
Jeg har skrevet et blogginnlegg som forklarer hvorfor dette er viktig, og hybridmodeller fungerte ikke for noen år siden da Mamba var veldig populært. I tillegg er denne artikkelen et flott inngangspunkt for moderne teori om dyp læring / språkmodellering. Kos deg og send tilbakemeldinger!

@interconnectsai Mye av beregningen for dette prosjektet ble levert av @LambdaAPI. Uten den ville ikke denne Olmo Hybrid eksistert, takk for støtten fra det åpne fellesskapet.
60
Topp
Rangering
Favoritter
