Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Lior Alexander

Освещение последних новостей разработчиков в области ИИ • Founder @AlphaSignalAI (250 тысяч пользователей) ML Eng с 2017 года • Бывший Mila

Кто-то только что обошел нейронный процессор Apple, чтобы обучить модели. Нейронный процессор внутри каждого Mac на базе M-серии был разработан для вывода. Запускайте модели, не обучайте их. Нет публичного API, нет документации и, конечно, никакой обратной пропаганды. Тем не менее, исследователь обратного проектирования разобрал частные API и создал цикл обучения трансформеров, который выполняет прямые и обратные проходы непосредственно на аппаратном обеспечении ANE. Этот метод полностью обходит CoreML. Вместо использования официальных инструментов Apple проект строит программы на MIL (Model Intermediate Language), компилирует их в памяти с использованием не задокументированных API `_ANEClient` и передает данные через буферы общей памяти IOSurface. Весы встраиваются в скомпилированные программы как константы. Каждый шаг обучения вызывает шесть пользовательских ядер: внимание вперед, прямой проход, затем четыре обратных прохода, которые вычисляют градиенты по отношению к входным данным. Градиенты весов все еще выполняются на ЦП с использованием библиотек матриц Accelerate, но тяжелая работа (умножение матриц, softmax, функции активации) выполняется на ANE. Это делает возможным три вещи, которые раньше были невозможны: 1. Обучение небольших моделей локально, не разряжая батарею 2. Тонкая настройка на устройстве без отправки данных на сервер или запуска GPU 3. Исследование того, что на самом деле может делать аппаратное обеспечение ANE, когда вы игнорируете защитные механизмы Apple Если этот подход масштабируется, следующая волна ИИ на устройствах перестанет быть связанной с запуском замороженной модели кого-то другого.

Alibaba отправила четыре небольших модели Qwen 3.5 с приемом, заимствованным из их модели 397B: гибридное внимание Gated DeltaNet. Три слоя линейного внимания на каждый слой полного внимания. Линейные слои обрабатывают рутинные вычисления с постоянным использованием памяти. Полные слои внимания активируются только тогда, когда важна точность. Это соотношение 3:1 поддерживает стабильное использование памяти, в то время как качество остается высоким, именно поэтому даже модель 0.8B поддерживает контекстное окно в 262 000 токенов. Каждая модель обрабатывает текст, изображения и видео нативно. Без адаптера, прикрепленного позже. Визуальный кодировщик использует 3D-свёртки для захвата движения в видео, а затем объединяет признаки из нескольких слоев, а не только из последнего. Модель 9B обходит GPT-5-Nano на 13 пунктов по многомодальному пониманию, на 17 пунктов по визуальной математике и на 30 пунктов по разбору документов. Модель 0.8B работает на телефоне и обрабатывает видео. Модель 4B помещается в 8 ГБ видеопамяти и действует как многомодальный агент. Все четыре модели имеют лицензию Apache 2.0. Если эта архитектура сохранится, пространство небольших моделей только что стало гонкой возможностей, а не гонкой размеров. Год назад запуск многомодальной модели локально означал модель 13B+ и серьезный GPU. Теперь модель 4B с контекстом 262K обрабатывает текст, изображения и видео на потребительском оборудовании. Разрыв между крайними моделями и флагманскими моделями сокращается быстрее, чем разрыв между флагманами и людьми.

Топ

Рейтинг

Избранное