Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Alibaba envió cuatro modelos pequeños Qwen 3.5 con un truco tomado de su modelo 397B: la atención híbrida Gated DeltaNet. Tres capas de atención lineal por cada capa de atención completa. Las capas lineales gestionan el cálculo rutinario con un uso constante de memoria. Las capas de atención completa solo disparan cuando la precisión importa. Esta proporción 3:1 mantiene la memoria estable mientras la calidad se mantiene alta, por lo que incluso el modelo de 0,8B soporta una ventana de contexto de 262.000 tokens. Cada modelo gestiona texto, imágenes y vídeo de forma nativa. No se atornilló ningún adaptador después. El codificador de visión utiliza convoluciones 3D para capturar el movimiento en vídeo, luego fusiona características de varias capas en lugar de solo la final. El 9B supera a GPT-5-Nano por 13 puntos en comprensión multimodal, 17 puntos en matemáticas visuales y 30 puntos en análisis de documentos. El 0.8B funciona en un teléfono y procesa vídeo. El 4B cabe en 8GB de VRAM y actúa como agente multimodal. Los cuatro son Apache 2.0. Si esta arquitectura se mantiene, el espacio de modelos pequeño simplemente se convertiría en una carrera de capacidades en lugar de una carrera de tamaño. Hace un año, ejecutar un modelo multimodal localmente significaba un modelo 13B+ y una GPU seria. Ahora un modelo 4B con 262K de contexto maneja texto, imágenes y vídeo de hardware de consumo. La brecha entre los modelos de vanguardia y los modelos insignia se está reduciendo más rápido que la distancia entre los buques insignia y los humanos.

Populares

Ranking

Favoritas