Alibaba a expédié quatre petits modèles Qwen 3.5 avec un truc emprunté à leur modèle 397B : l'attention hybride Gated DeltaNet. Trois couches d'attention linéaire pour chaque couche d'attention complète. Les couches linéaires gèrent les calculs de routine avec une utilisation de mémoire constante. Les couches d'attention complète ne s'activent que lorsque la précision est importante. Ce ratio de 3:1 maintient la mémoire plate tout en gardant une qualité élevée, c'est pourquoi même le modèle 0.8B prend en charge une fenêtre de contexte de 262 000 tokens. Chaque modèle gère le texte, les images et la vidéo nativement. Pas d'adaptateur ajouté après coup. L'encodeur de vision utilise des convolutions 3D pour capturer le mouvement dans la vidéo, puis fusionne les caractéristiques de plusieurs couches au lieu de se limiter à la dernière. Le 9B bat GPT-5-Nano de 13 points sur la compréhension multimodale, de 17 points sur les mathématiques visuelles, et de 30 points sur l'analyse de documents. Le 0.8B fonctionne sur un téléphone et traite la vidéo. Le 4B tient dans 8 Go de VRAM et agit comme un agent multimodal. Les quatre sont sous licence Apache 2.0. Si cette architecture tient, l'espace des petits modèles vient de devenir une course de capacités plutôt qu'une course de taille. Il y a un an, faire fonctionner un modèle multimodal localement signifiait un modèle de 13B+ et un GPU sérieux. Maintenant, un modèle de 4B avec 262K de contexte gère le texte, les images et la vidéo à partir de matériel grand public. L'écart entre les modèles edge et les modèles phares se réduit plus rapidement que l'écart entre les phares et les humains.