DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Ich freue mich, das neueste Olmo-Modell zu teilen: Olmo Hybrid. Dies ist ein Modell mit gated delta net (GDN) Schichten im Verhältnis 3:1 mit voller Aufmerksamkeit. Es folgt vielen anderen Entwicklungen wie Qwen 3.5 und Kimi Linear. Es ist ein unglaublicher Zeitpunkt, ein vollständig offenes Modell herauszubringen, damit die Leute studieren können, wie sich diese Architekturänderungen auf den gesamten Stack auswirken. Persönlich habe ich viel bei der Erstellung der Nachtrainingsarbeit gelernt. Selbst wenn die Daten für das Pretraining identisch sind, ist das Nachtraining sehr unterschiedlich! Insbesondere sind die OSS-Tools für diese neuen Architekturen wirklich begrenzt. Neue Architekturen sind viel langsamer als Standard-Transformer oder beliebte Modelle wie DeepSeek MoEs. Dies ist eine Arbeit, die wir gemeinsam leisten können, um die Grenze effizienter, offener Modelle weiter zu verschieben. Diese Arbeit wurde von @lambdaviking @tyleraromero und anderen geleitet. Ich hatte die Möglichkeit, eine kleinere Rolle bei der Erstellung der Nachtrainingsarbeit zu spielen, ein super spannendes Projekt! Ich habe einen Blogbeitrag verfasst, der erklärt, warum das wichtig ist und warum hybride Modelle vor ein paar Jahren nicht funktionierten, als Mamba super beliebt war. Außerdem ist dieses Papier ein großartiger Einstieg in die moderne Theorie des Deep Learning / der Sprachmodellierung und Skalierung. Viel Spaß und sendet Feedback!

@interconnectsai Ein großer Teil der Rechenleistung für dieses Projekt wurde von @LambdaAPI bereitgestellt. Ohne sie würde es diesen Olmo Hybrid nicht geben, danke für die Unterstützung der offenen Gemeinschaft.

39

Top

Ranking

Favoriten