Ser fram emot att dela med mig av den senaste Olmo-modellen: Olmo Hybrid. Detta är en modell med gated delta net (GDN)-lager i ett 3:1-förhållande med full uppmärksamhet. Den följer många andra utvecklingar som Qwen 3.5 och Kimi Linear. Det är otroligt tajming att släppa en helt öppen modell så att folk kan studera hur dessa arkitekturförändringar påverkar fullstacken. Personligen lärde jag mig mycket för att få efterträningen att fungera. Även om datan är identisk för förutbildningen är efterträningen väldigt annorlunda! Särskilt är OSS-verktygen för dessa nya arkitekturer mycket begränsade. Nya arkitekturer är mycket långsammare än standardtransformatorer eller populära modeller som DeepSeek MoEs. Detta är arbete vi kan göra tillsammans för att fortsätta driva gränsen för effektiva, öppna modeller. Detta arbete leddes av @lambdaviking @tyleraromero och andra. Jag fick spela en mindre roll i att få efterträningen att fungera, superroligt projekt! Jag har skrivit ett blogginlägg som förklarar varför detta är viktigt och hybridmodeller fungerade inte för några år sedan när Mamba var superpopulärt. Dessutom är denna artikel en utmärkt ingångspunkt för modern djupinlärnings- och språkmodelleringsskalningsteori. Njut och skicka feedback!
@interconnectsai Mycket av beräkningen för detta projekt tillhandahölls av @LambdaAPI. Utan den skulle denna Olmo Hybrid inte existera, tack för stödet från den öppna gemenskapen.
63