Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Радий поділитися останньою моделлю Olmo: Olmo Hybrid. Це модель із закритими дельта-сітками (GDN) шарами у співвідношенні 3:1 з повною увагою. Вона слідує за багатьма іншими розробками, такими як Qwen 3.5 і Kimi Linear. Це неймовірний час випускати повністю відкриту модель, щоб люди могли вивчати, як ці архітектурні зміни впливають на повний стек. Особисто я багато чого навчився, роблячи післятренінг успішним. Навіть якщо дані для попереднього навчання ідентичні, післятренінг дуже відрізняється! Зокрема, інструменти OSS для цих нових архітектур дуже обмежені. Нові архітектури значно повільніші за стандартні трансформатори або популярні моделі, як-от DeepSeek MoE. Це робота, яку ми можемо виконувати разом, щоб продовжувати розширювати межі ефективних, відкритих моделей. Цю роботу очолювали @lambdaviking @tyleraromero та інші. Я зіграла меншу роль у створенні післятренувального проєкту, дуже веселого проєкту! Я написав блог-пост, де пояснюю, чому це важливо, а гібридні моделі не працювали кілька років тому, коли Mamba була дуже популярною. До того ж, ця стаття — чудовий вступ до сучасної теорії масштабування глибокого навчання та мовного моделювання. Насолоджуйтеся та надсилайте відгуки!

@interconnectsai Більшу частину обчислювальної роботи для цього проєкту забезпечувала компанія @LambdaAPI. Без нього цього Olmo Hybrid не існував би, дякую за підтримку відкритої спільноти.

64

Найкращі

Рейтинг

Вибране