Alibaba отправила четыре небольших модели Qwen 3.5 с приемом, заимствованным из их модели 397B: гибридное внимание Gated DeltaNet. Три слоя линейного внимания на каждый слой полного внимания. Линейные слои обрабатывают рутинные вычисления с постоянным использованием памяти. Полные слои внимания активируются только тогда, когда важна точность. Это соотношение 3:1 поддерживает стабильное использование памяти, в то время как качество остается высоким, именно поэтому даже модель 0.8B поддерживает контекстное окно в 262 000 токенов. Каждая модель обрабатывает текст, изображения и видео нативно. Без адаптера, прикрепленного позже. Визуальный кодировщик использует 3D-свёртки для захвата движения в видео, а затем объединяет признаки из нескольких слоев, а не только из последнего. Модель 9B обходит GPT-5-Nano на 13 пунктов по многомодальному пониманию, на 17 пунктов по визуальной математике и на 30 пунктов по разбору документов. Модель 0.8B работает на телефоне и обрабатывает видео. Модель 4B помещается в 8 ГБ видеопамяти и действует как многомодальный агент. Все четыре модели имеют лицензию Apache 2.0. Если эта архитектура сохранится, пространство небольших моделей только что стало гонкой возможностей, а не гонкой размеров. Год назад запуск многомодальной модели локально означал модель 13B+ и серьезный GPU. Теперь модель 4B с контекстом 262K обрабатывает текст, изображения и видео на потребительском оборудовании. Разрыв между крайними моделями и флагманскими моделями сокращается быстрее, чем разрыв между флагманами и людьми.