Alibaba đã vận chuyển bốn mô hình nhỏ Qwen 3.5 với một mẹo mượn từ mô hình 397B của họ: Gated DeltaNet hybrid attention. Ba lớp attention tuyến tính cho mỗi một lớp attention đầy đủ. Các lớp tuyến tính xử lý tính toán thông thường với mức sử dụng bộ nhớ không đổi. Các lớp attention đầy đủ chỉ hoạt động khi độ chính xác quan trọng. Tỷ lệ 3:1 này giữ cho bộ nhớ ổn định trong khi chất lượng vẫn cao, đó là lý do tại sao ngay cả mô hình 0.8B cũng hỗ trợ một cửa sổ ngữ cảnh 262.000 token. Mỗi mô hình xử lý văn bản, hình ảnh và video một cách tự nhiên. Không có bộ chuyển đổi nào được gắn thêm sau đó. Bộ mã hóa hình ảnh sử dụng các phép biến đổi 3D để nắm bắt chuyển động trong video, sau đó kết hợp các đặc trưng từ nhiều lớp thay vì chỉ lớp cuối cùng. Mô hình 9B vượt qua GPT-5-Nano 13 điểm về khả năng hiểu đa phương tiện, 17 điểm về toán học hình ảnh, và 30 điểm về phân tích tài liệu. Mô hình 0.8B chạy trên điện thoại và xử lý video. Mô hình 4B vừa vặn trong 8GB VRAM và hoạt động như một tác nhân đa phương tiện. Tất cả bốn mô hình đều theo giấy phép Apache 2.0. Nếu kiến trúc này giữ vững, không gian mô hình nhỏ vừa trở thành một cuộc đua khả năng thay vì cuộc đua kích thước. Một năm trước, việc chạy một mô hình đa phương tiện tại chỗ có nghĩa là một mô hình 13B+ và một GPU mạnh mẽ. Giờ đây, một mô hình 4B với 262K ngữ cảnh xử lý văn bản, hình ảnh và video từ phần cứng tiêu dùng. Khoảng cách giữa các mô hình biên và các mô hình flagship đang thu hẹp nhanh hơn khoảng cách giữa các flagship và con người.