Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Zhuokai Zhao

Научный сотрудник @Meta Я создаю и изучаю LLM и агенты Обмен мыслями о рассуждениях, реальной жизни и масштабируемом интеллекте Докторская степень по информатике @UChicagoCS

AMI Labs только что привлекли 1,03 миллиарда долларов. World Labs привлекли 1 миллиард долларов несколько недель назад. Оба делают ставку на мировые модели. Но почти никто не понимает этот термин одинаково. Вот, на мой взгляд, пять категорий мировых моделей. --- 1. Архитектура предсказания совместного встраивания (JEPA) Представители: AMI Labs (@ylecun), V-JEPA 2 Центральная ставка здесь заключается в том, что реконструкция пикселей сама по себе является неэффективной целью для изучения абстракций, необходимых для физического понимания. ЛеКун говорит об этом уже много лет — предсказать каждый пиксель будущего невозможно в любой стохастической среде. JEPA обходит это, предсказывая в обученном латентном пространстве. Конкретно, JEPA обучает кодировщик, который сопоставляет видеопетлицы с представлениями, затем предсказатель, который прогнозирует замаскированные области в этом пространственном представлении — не в пиксельном пространстве. Это критически важный выбор дизайна. Генеративная модель, которая реконструирует пиксели, вынуждена привязываться к низкоуровневым деталям (точная текстура, освещение, положение листа), которые по своей природе непредсказуемы. Работая с абстрактными встраиваниями, JEPA может захватить "мяч упадет со стола", не нужно галлюцинировать каждую секунду его падения. V-JEPA 2 — это самый ясный крупномасштабный доказательный пункт на данный момент. Это модель с 1,2 миллиарда параметров, предварительно обученная на более чем 1 миллионе часов видео через самообученное замаскированное предсказание — без меток, без текста. Второй этап обучения — это то, где становится интересно: всего 62 часа данных о роботах из набора данных DROID достаточно, чтобы создать модель мира, основанную на действиях, которая поддерживает нулевое планирование. Робот генерирует кандидатные последовательности действий, прокатывает их через модель мира и выбирает ту, чье предсказанное исходное состояние лучше всего соответствует целевому изображению. Это работает с объектами и средами, которые никогда не видели во время обучения. Эффективность данных — это настоящая техническая заголовка. 62 часа — это почти ничего. Это предполагает, что самообученное предварительное обучение на разнообразном видео может обеспечить достаточно физического предварительного знания, что очень мало специфических данных по области нужно в дальнейшем. Это сильный аргумент в пользу дизайна JEPA — если ваши представления достаточно хороши, вам не нужно с нуля решать каждую задачу. AMI Labs — это усилие ЛеКуна продвинуть это за пределы исследований. Они в первую очередь нацелены на здравоохранение и робототехнику, что имеет смысл, учитывая силу JEPA в физическом рассуждении с ограниченными данными. Но это долгосрочная ставка — их CEO открыто сказал, что коммерческие продукты могут быть еще через несколько лет. --- 2. Пространственный интеллект (3D мировые модели) Представитель: World Labs (@drfeifei) Где JEPA спрашивает "что произойдет дальше", подход Фей-Фей Ли спрашивает "как выглядит мир в 3D, и как я могу его построить?" Тезис заключается в том, что истинное понимание требует явной пространственной структуры — геометрии, глубины, постоянства и способности повторно наблюдать сцену с новых точек зрения — а не только временного предсказания. Это другая ставка, чем у JEPA: вместо изучения абстрактной динамики вы изучаете структурированное 3D представление окружающей среды, которое можете манипулировать напрямую. Их продукт Marble генерирует постоянные 3D среды из изображений, текста, видео или 3D макетов. "Постоянный" — это ключевое слово — в отличие от модели генерации видео, которая производит линейную последовательность кадров, выходы Marble — это реальные 3D сцены с пространственной согласованностью. Вы можете вращать камеру, редактировать объекты, экспортировать сетки. Это ставит его ближе к инструменту создания 3D, чем к предсказательной модели, что является преднамеренным. Для контекста, это строится на наследии работы по нейронным 3D представлениям (NeRFs, 3D Gaussian Splatting), но движется к генерации, а не реконструкции. Вместо того чтобы захватывать реальную сцену из многовидовых фотографий, Marble синтезирует правдоподобные новые сцены из разреженных входных данных. Проблема заключается в поддержании физической правдоподобности — согласованной геометрии, разумного освещения, разумной окклюзии — в созданном мире, который никогда не существовал. --- 3. Обученная симуляция (Генеративное видео + RL в латентном пространстве) Представители: Google DeepMind (Genie 3, Dreamer V3/V4), Runway GWM-1 Эта категория объединяет две линии, которые быстро сходятся: генеративные видео модели, которые учатся симулировать интерактивные миры, и агенты RL, которые учатся моделям мира для обучения политик в воображении. Линия генерации видео. Genie 3 от DeepMind — это самая чистая версия — текстовый запрос на входе, навигационная среда на выходе, 24 кадра в секунду при 720p, с согласованностью на несколько минут. Вместо того чтобы полагаться на явный ручной симулятор, он учится интерактивной динамике из данных. Ключевое архитектурное свойство — автогрессивная генерация, обусловленная действиями пользователя: каждый кадр генерируется на основе всех предыдущих кадров плюс текущий ввод (двигаться влево, смотреть вверх и т.д.). Это означает, что модель должна поддерживать неявную пространственную память — отвернуться от дерева и повернуться обратно, и оно должно все еще быть там. DeepMind сообщает о согласованности до примерно минуты, что впечатляет, но все еще далеко от того, что вам нужно для устойчивого обучения агентов. GWM-1 от Runway использует аналогичную основу — автогрессивное предсказание кадров, построенное на Gen-4.5 — но делится на три продукта: Worlds, Robotics и Avatars. Разделение на Worlds / Avatars / Robotics предполагает, что проблема практической общности все еще разбивается по пространству действий и случаям использования. Линия RL. Серия Dreamer имеет более длинную интеллектуальную историю. Основная идея проста: изучить латентную динамическую модель из наблюдений, затем развернуть воображаемые траектории в латентном пространстве и оптимизировать политику через обратное распространение через предсказания модели. Агент никогда не должен взаимодействовать с реальной средой во время обучения политики. Dreamer V3 был первым ИИ, который получил алмазы в Minecraft без человеческих данных. Dreamer 4 сделал то же самое полностью оффлайн — без взаимодействия с окружающей средой. Архитектурно, Dreamer 4 переходит от более ранней рекуррентной линии Dreamer к более масштабируемому рецепту модели мира на основе трансформеров и вводит "принуждение к сокращению" — цель обучения, которая позволяет модели прыгать от шумных к чистым предсказаниям всего за 4 шага вместо 64, типичных для диффузионных моделей. Это то, что делает возможным реальное время вывода на одном H100. Эти две подлинии раньше казались различными: генерация видео производит визуальные среды, в то время как модели мира RL производят обученные политики. Но Dreamer 4 размывает границу — люди теперь могут играть внутри его модели мира интерактивно, и Genie 3 используется для обучения агентов SIMA от DeepMind. Точка сходимости заключается в том, что обеим нужно одно и то же: модель, которая может точно симулировать, как действия влияют на окружающую среду на длительных горизонтах. Открытый вопрос для всей этой категории — это то, что ЛеКун продолжает поднимать: означает ли обучение генерации пикселей, которые выглядят физически корректно, что модель действительно понимает физику? Или это сопоставление паттернов внешнего вида? Способность Dreamer 4 получать алмазы в Minecraft из чистого воображения является сильным эмпирическим контраргументом, но это также игра с дискретными, обучаемыми механиками — реальный мир более запутан. --- 4. Физическая ИИ инфраструктура (Платформа симуляции) Представитель: NVIDIA Cosmos Игра NVIDIA заключается в том, чтобы не строить модель мира, а строить платформу, которую все остальные используют для создания своих. Cosmos был запущен на CES в январе 2025 года и охватывает весь стек — конвейер кураторства данных (обработка 20 миллионов часов видео за 14 дней на Blackwell, против 3+ лет на CPU), визуальный токенизатор с 8-кратным улучшением сжатия по сравнению с предыдущими SOTA, обучение модели через NeMo и развертывание через микросервисы NIM. Предварительно обученные модели мирового фундамента обучены на 9 триллионах токенов из 20 миллионов часов реального видео, охватывающего данные о вождении, промышленности, робототехнике и человеческой деятельности. Они приходят в две архитектурные семьи: основанные на диффузии (работающие с непрерывными латентными токенами) и основанные на автогрессивных трансформерах (предсказание следующего токена на дискретизированных токенах). Обе могут быть дообучены для конкретных областей. Три семейства моделей находятся на вершине этого. Predict генерирует будущие состояния видео из текстовых, изображенческих или видео входов — по сути, прогнозирование видео, которое может быть дообучено для конкретных сценариев роботов или вождения. Transfer обрабатывает адаптацию домена симуляции к реальности, что является одной из постоянных головных болей в физическом ИИ — ваша модель отлично работает в симуляции, но ломается в реальном мире из-за визуальных и динамических разрывов. Reason (добавленный на GTC 2025) приносит рассуждение цепочки мыслей по физическим сценам — пространственно-временное осознание, причинное понимание взаимодействий, видео Q&A. --- 5. Активное вывод Представитель: VERSES AI (Карл Фристон) Это аутсайдер в списке — не из традиции глубокого обучения, а из вычислительной нейробиологии. Принцип свободной энергии Карла Фристона говорит, что интеллектуальные системы постоянно генерируют предсказания о своей среде и действуют, чтобы минимизировать сюрприз (технически: вариационная свободная энергия, верхняя граница на сюрприз). Где стандартный RL обычно формулируется вокруг максимизации вознаграждения, активное вывод формулирует поведение как минимизацию вариационной / ожидаемой свободной энергии, что сочетает целенаправленные предпочтения с эпистемической ценностью. Это приводит к естественному поведению исследования: агент притягивается к ситуациям, где он не уверен, потому что разрешение неопределенности снижает свободную энергию. VERSES построила AXIOM (Активное расширяющее вывод с объектно-центрированными моделями) на этой основе. Архитектура принципиально отличается от нейронных сетей моделей мира. Вместо того чтобы изучать монолитный аппроксиматор функции, AXIOM поддерживает структурированную генеративную модель, где каждый объект в окружающей среде является дискретным объектом с типизированными атрибутами и отношениями. Вывод является байесовским — убеждения являются вероятностными распределениями, которые обновляются через передачу сообщений, а не градиентный спуск. Это делает его интерпретируемым (вы можете проверить, что агент считает о каждом объекте), композируемым (добавить новый тип объекта без повторного обучения) и чрезвычайно эффективным по данным. В своей работе по робототехнике они показали иерархическую многоагентную настройку, где каждый сустав роботизированной руки является своим собственным агентом активного вывода. Агентам на уровне суставов управляют локальным моторным контролем, в то время как агенты более высокого уровня занимаются планированием задач, все координируя через общие убеждения в иерархии. Вся система адаптируется в реальном времени к незнакомым средам без повторного обучения — вы перемещаете целевой объект, и агент немедленно перепланирует, потому что он выполняет онлайн-вывод, а не выполняет фиксированную политику. Они выпустили коммерческий продукт (Genius) в апреле 2025 года, и бенчмарки AXIOM против базовых линий RL конкурентоспособны по стандартным задачам управления, используя порядки величины меньше данных. --- imo, эти пять категорий на самом деле не конкурируют — они решают разные подзадачи. JEPA сжимает физическое понимание. Пространственный интеллект реконструирует 3D структуру. Обученная симуляция обучает агентов через сгенерированный опыт. NVIDIA предоставляет инструменты и ресурсы. Активное вывод предлагает принципиально другую вычислительную теорию интеллекта. Мой прогноз — границы между ними быстро размываются.

Исследование архитектур LLM на переднем крае в значительной степени сошлось. Я изучил код трансформеров HuggingFace для недавно выпущенного GLM-5 от @Zai_org (zai-org/GLM-5). Вот подробный разбор архитектуры и то, что он говорит нам о том, куда движется дизайн LLM. Кратко: архитектурно GLM-5 близок к DeepSeek-V3 с незначительной настройкой. ВНИМАНИЕ: MLA заменяет GQA Самое большое изменение от GLM-4.7 к GLM-5 — это внимание. GLM-4.7 использовал стандартное внимание с группированными запросами (GQA) с 96 Q головами, 8 KV головами, отдельными проекциями q/k/v. GLM-5 отказывается от всего этого и принимает многоголовое латентное внимание DeepSeek (MLA). В конвейере MLA запросы проходят через проекцию в два этапа в стиле LoRA: скрытое -> q_a_proj до ранга 2048 -> RMSNorm -> q_b_proj до 64 голов * 256 размерности. Ключи и значения совместно сжимаются в единую низкоранговую бутылочную горлышко: скрытое -> kv_a_proj до ранга 512+64 -> разделяется на латентный путь KV и путь RoPE. Латентная часть расширяется обратно через kv_b_proj в 64 головы размерности (192 nope + 256 значение). Это точно такой же дизайн MLA, как у DeepSeek-V3. GLM-5 просто настраивает размеры: q_lora_rank 2048 против 1536, v_head_dim 256 против 128, qk_nope_head_dim 192 против 128. kv_lora_rank (512) и qk_rope_head_dim (64) идентичны. Также нет смещения нигде в внимании (attention_bias по умолчанию False). Каждая проекция (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj и все проекции индексатора DSA) не имеет смещения. Это теперь стандартная практика; среди основных моделей, выпущенных в 2025 году, только GPT-oss все еще использует смещение внимания. DSA: Разреженное внимание DeepSeek GLM-5 принимает родное разреженное внимание DeepSeek V3.2 (DSA) — это единственная архитектурная особенность, которую @Zai_org явно выделил. Класс внимания содержит специальные компоненты индексатора: wq_b, wk, k_norm и weights_proj, используемые для выбора 2048 самых релевантных токенов (index_topk=2048) для каждого шага внимания вместо того, чтобы обращать внимание на весь контекст. MOE ROUTING: Один и тот же рецепт и одни и те же числа 256 маршрутизируемых экспертов + 1 общий эксперт. То же самое, что и у DeepSeek-V3 по обоим показателям; увеличилось с 128 маршрутизируемых экспертов GLM-4.7. Пока что только серия Qwen-3 убрала общего эксперта — все остальные оставляют одного. Выбираются топ-8 экспертов на токен (num_experts_per_tok=8). Маршрутизация на основе сигмоиды (не softmax) с e_score_correction_bias для балансировки нагрузки — никакой вспомогательной потери вообще, точно как у DeepSeek-V3. Топ-k веса нормализуются (norm_topk_prob=True), затем масштабируются по routed_scaling_factor = 2.5 — идентично DeepSeek-V3 (GLM-4.7 использовал 1.0). moe_intermediate_size = 2048, также идентично DeepSeek-V3. Одно упрощение по сравнению с DeepSeek-V3: GLM-5 полностью отказывается от группового выбора экспертов (n_group=1, topk_group=1). DeepSeek-V3 делит 256 экспертов на 8 групп по 32 и выбирает топ-4 группы перед тем, как выбрать экспертов внутри них. GLM-5 пропускает это и просто делает плоский топ-8 среди всех 256. Это согласуется с подходом GLM-4.7 — предполагая, что групповая маршрутизация может не быть необходимой. FFN / MLP: SwiGLU, плотный-затем-MoE Все слои прямой передачи (FFN) используют SwiGLU (гейтированная линейная единица с активацией SiLU), без смещения в любой проекции. Это относится как к плотным FFN, так и к маршрутизируемым экспертам и общим экспертам. 78 слоев следуют паттерну плотный-затем-MoE: первые 3 слоя используют стандартный плотный FFN (intermediate_size=12288), а оставшиеся 75 слоев — все MoE — без чередования плотных/MoE в области MoE. DeepSeek-V3 использует тот же разбиение 3-плотных-затем-MoE. GLM-4.7 использовал только 1 начальный плотный слой. В каждом слое MoE выход — это сумма двух частей: (1) смесь маршрутизируемых экспертов (топ-8 из 256, каждый с intermediate_size=2048), и (2) общий эксперт (также intermediate_size=2048), который обрабатывает каждый токен без условий. СКЕЛЕТ МОДЕЛИ: 78 слоев, 202k контекста Всего 78 слоев трансформеров (глубже, чем 61 у DeepSeek-V3). hidden_size = 6144. 64 головы внимания, 64 KV головы (MLA делает эффективный KV намного дешевле, чем это число предполагает). RMSNorm на протяжении всего (eps=1e-5). Размер словаря 154,880. Словесные встраивания по умолчанию не связаны с головой LM (tie_word_embeddings=False). Длина контекста составляет 202,752 токена. RoPE использует чередующийся макет (rope_interleave=True), снова импортируя apply_rotary_pos_emb_interleave непосредственно из DeepSeek-V3. Код поддерживает масштабирование YaRN через yarn_get_mscale, но rope_theta и rope_type устанавливаются в config.json модели, а не жестко закодированы в исходном коде. MTP: Многотокенное предсказание Многотокенное предсказание — это техника обучения (популяризированная DeepSeek-V3), где модель учится предсказывать несколько будущих токенов одновременно через дополнительные предсказательные головы, улучшая качество представления. Эти дополнительные головы используются только во время обучения и отбрасываются во время вывода. GLM-5, похоже, использует MTP, так как контрольная точка модели содержит веса для 79-го слоя декодера (model.layers.78), одного за пределами 78 обычных слоев (индексы 0-77). Код трансформеров явно пропускает эти дополнительные веса при загрузке модели. DeepSeek-V3 и GLM-4.7 оба демонстрируют ту же схему — дополнительные веса слоя в контрольной точке, игнорируемые во время загрузки — что согласуется с тем, как обычно отправляются и отбрасываются головы обучения MTP. ЧТО ЭТО ЗНАЧИТ GLM-5 не просто заимствовал несколько идей у DeepSeek. Он - заменил всю свою механизм внимания (GQA -> MLA) - принял DSA - принял маршрутизацию MoE на основе сигмоиды с e_score_correction_bias - удвоил количество экспертов, чтобы соответствовать 256 DeepSeek, - сопоставил коэффициент масштабирования маршрутизации (2.5), промежуточный размер эксперта (2048) и количество начальных плотных слоев (3) - и принял MTP. Единственное, что GLM-5 явно сохранил от своего собственного наследия GLM-4.7 — где он отличается от DeepSeek-V3 — это плоская маршрутизация top-k без группового выбора (n_group=1 против 8 DeepSeek). Тем не менее, это НЕ плохая вещь. Когда крупная лаборатория отказывается от своего собственного архитектурного наследия и перестраивает на основе чертежа конкурента — соответствуя не только паттернам дизайна, но и многим ключевым гиперпараметрам — это означает, что пространство дизайна было исследовано. MLA + сигмоидная MoE + общие эксперты + без вспомогательной потери + DSA + MTP становится стандартным рецептом MoE на переднем крае. Возврат к архитектурной новизне уменьшается. Дифференциация (пока) больше лежит в кураторстве данных, рецептах обучения и инфраструктуре вывода, и меньше в самом блоке трансформера (но, возможно, мы увидим больше архитектурных изменений или даже не-трансформерных блоков в будущем).

Топ

Рейтинг

Избранное