DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Artificial Analysis

Análisis independiente de modelos de IA y proveedores de alojamiento: elija el mejor modelo y proveedor de API para su caso de uso

Alibaba ha lanzado 4 nuevos modelos Qwen3.5 desde 0.8B hasta 9B. El 9B (Razonamiento, 32 en el Índice de Inteligencia) es el modelo más inteligente por debajo de 10B parámetros, y el 4B (Razonamiento, 27) el más inteligente por debajo de 5B, pero ambos utilizan más de 200M de tokens de salida para ejecutar el Índice de Inteligencia @Alibaba_Qwen ha ampliado la familia Qwen3.5 con cuatro modelos densos más pequeños: el 9B (Razonamiento, 32 en el Índice de Inteligencia), 4B (Razonamiento, 27), 2B (Razonamiento, 16) y 0.8B (Razonamiento, 9). Estos complementan los modelos más grandes de 397B, 27B, 122B A10B y 35B A3B lanzados a principios de este mes. Todos los modelos tienen licencia Apache 2.0, soportan 262K de contexto, incluyen soporte nativo de visión y utilizan el mismo enfoque híbrido de pensamiento/no pensamiento unificado que el resto de la familia Qwen3.5 Resultados clave de benchmarking para las variantes de razonamiento: ➤ El 9B y el 4B son los modelos más inteligentes en sus respectivas clases de tamaño, por delante de todos los demás modelos por debajo de 10B parámetros. Qwen3.5 9B (32) puntúa aproximadamente el doble que los modelos más cercanos por debajo de 10B: Falcon-H1R-7B (16) y NVIDIA Nemotron Nano 9B V2 (Razonamiento, 15). Qwen3.5 4B (27) supera a todos estos a pesar de tener aproximadamente la mitad de los parámetros. Todos los cuatro modelos pequeños Qwen3.5 están en la frontera de Pareto del gráfico de Inteligencia vs. Total de Parámetros ➤ La generación Qwen3.5 representa un aumento material de inteligencia sobre Qwen3 en todos los tamaños de modelos por debajo de 10B, con mayores ganancias a mayores conteos de parámetros totales. Comparando variantes de razonamiento: Qwen3.5 9B (32) está 15 puntos por delante de Qwen3 VL 8B (17), el 4B (27) gana 9 puntos sobre Qwen3 4B 2507 (18), el 2B (16) está 3 puntos por delante de Qwen3 1.7B (estimado 13), y el 0.8B (9) gana 2.5 puntos sobre Qwen3 0.6B (6.5). ➤ Todos los cuatro modelos utilizan de 230 a 390M de tokens de salida para ejecutar el Índice de Inteligencia, significativamente más que tanto los hermanos más grandes de Qwen3.5 como los predecesores de Qwen3. Qwen3.5 2B utilizó ~390M de tokens de salida, 4B utilizó ~240M, 0.8B utilizó ~230M, y 9B utilizó ~260M. Para contexto, el mucho más grande Qwen3.5 27B utilizó 98M y el buque insignia de 397B utilizó 86M. Estos conteos de tokens también superan a la mayoría de los modelos de frontera: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) y GLM-5 Razonamiento (109M) ➤ AA-Omnisciencia es una debilidad relativa, con tasas de alucinación del 80-82% para el 4B y el 9B. Qwen3.5 4B puntúa -57 en AA-Omnisciencia con una tasa de alucinación del 80% y una precisión del 12.8%. Qwen3.5 9B puntúa -56 con 82% de alucinación y 14.7% de precisión. Estos son marginalmente mejores que sus predecesores de Qwen3 (Qwen3 4B 2507: -61, 84% de alucinación, 12.7% de precisión), con la mejora impulsada principalmente por tasas de alucinación más bajas en lugar de mayor precisión. ➤ Los modelos Qwen3.5 por debajo de 10B combinan alta inteligencia con visión nativa a una escala previamente no disponible. En MMMU-Pro (razonamiento multimodal), Qwen3.5 9B puntúa 69.2% y 4B puntúa 65.4%, por delante de Qwen3 VL 8B (56.6%), Qwen3 VL 4B (52.0%) y Ministral 3 8B (46.0%). El Qwen3.5 0.8B puntúa 25.8%, lo cual es notable para un modelo por debajo de 1B Otra información: ➤ Ventana de contexto: 262K tokens ➤ Licencia: Apache 2.0 ➤ Cuantización: Los pesos nativos son BF16. Alibaba no ha lanzado cuantizaciones GPTQ-Int4 de primera parte para estos modelos pequeños, aunque sí lo ha hecho para los modelos más grandes de la familia Qwen3.5 lanzados anteriormente (27B, 35B-A3B, 122B-A10B, 397B-A17B). En cuantización de 4 bits, los cuatro modelos son accesibles en hardware de consumo ➤ Disponibilidad: En el momento de la publicación, no hay APIs sin servidor de primera o tercera parte que alojen estos modelos.

Alibaba ha ampliado su familia de modelos Qwen3.5 con 3 nuevos modelos: el modelo 27B es destacado, obteniendo 42 en el Índice de Análisis de Inteligencia Artificial y igualando a modelos de pesos abiertos de 8-25 veces su tamaño @Alibaba_Qwen ha ampliado la familia Qwen3.5 con tres nuevos modelos junto al buque insignia de 397B lanzado a principios de este mes: el Qwen3.5 27B (Denso, obteniendo 42 en el Índice de Inteligencia), Qwen3.5 122B A10B (MoE, 42) y Qwen3.5 35B A3B (MoE, 37). Los dos modelos MoE (Mezcla de Expertos) solo activan una fracción de los parámetros totales por pasada (10B de 122B y ~3B de 35B respectivamente). El Índice de Inteligencia es nuestra métrica de síntesis que incorpora 10 evaluaciones que cubren razonamiento general, tareas agenciales, codificación y razonamiento científico. Todos los modelos tienen licencia Apache 2.0, soportan nativamente 262K de contexto y regresan a la arquitectura híbrida de pensamiento/no pensamiento unificado del Qwen3 original, después de que Alibaba se movió a separar los puntos de control de Instrucción y Razonamiento con las actualizaciones Qwen3 2507. Resultados clave de benchmarking para las variantes de razonamiento: ➤ Qwen3.5 27B obtiene 42 en el Índice de Inteligencia y es el modelo más inteligente por debajo de 230B. El modelo más cercano de tamaño similar es GLM-4.7-Flash (31B total, 3B activos) que obtiene 30. Los modelos de pesos abiertos de inteligencia equivalente son de 8-25 veces más grandes en términos de parámetros totales: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) y GLM-4.7 (357B, 42). En precisión FP8, se necesitan ~27GB para almacenar los pesos del modelo, mientras que en cuantización de 4 bits se puede usar hardware de calidad de laptop con 16GB+ de RAM ➤ Qwen3.5 27B obtiene 1205 en GDPval-AA (Tareas de Trabajo del Mundo Real Agenciales), colocándolo junto a modelos más grandes. Para contexto, MiniMax-M2.5 obtiene 1206, GLM-4.7 (Razonamiento) obtiene 1200 y DeepSeek V3.2 (Razonamiento) obtiene 1194. Esto es particularmente notable para un modelo de 27B de parámetros y sugiere una fuerte capacidad agencial para su tamaño. GDPval-AA evalúa modelos en tareas del mundo real a través de 44 ocupaciones y 9 industrias principales ➤ AA-Omnisciencia sigue siendo una debilidad relativa en toda la familia Qwen3.5, impulsada principalmente por una menor precisión en lugar de la tasa de alucinación. Qwen3.5 27B obtiene -42 en AA-Omnisciencia, comparable a MiniMax-M2.5 (-40) pero detrás de DeepSeek V3.2 (-21) y GLM-4.7 (-35). Aunque la tasa de alucinación de Qwen3.5 27B (80%) es más baja que la de sus pares (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), su precisión también es más baja con un 21% frente al 34% de DeepSeek V3.2 y el 29% de GLM-4.7. Esto es probablemente una consecuencia del tamaño del modelo: hemos observado generalmente que los modelos con más parámetros totales tienen un mejor rendimiento en precisión en AA-Omnisciencia, ya que el recuerdo de conocimiento más amplio se beneficia de un mayor conteo de parámetros ➤ Qwen3.5 27B es igualmente inteligente que Qwen3.5 122B A10B. El 122B A10B es un modelo de Mezcla de Expertos que solo activa 10B de sus 122B de parámetros totales por pasada. El modelo de 27B lidera en GDPval-AA (1205 Elo frente a 1145 Elo) y ligeramente en TerminalBench (+1.5 p.p.), mientras que el modelo de 122B lidera en SciCode (+2.5 p.p.), HLE (+1.2 p.p.) y tiene una tasa de alucinación más baja (Omnisciencia -40 frente a -42) ➤ Qwen3.5 35B A3B (Razonamiento, 37) es el modelo más inteligente con ~3B de parámetros activos, 7 puntos por delante de GLM-4.7-Flash (30). Otros modelos en esta categoría de ~3B activos incluyen Qwen3 Coder Next (80B total, 28), Qwen3 Next 80B A3B (27) y NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ Qwen3.5 27B utilizó 98M de tokens de salida para ejecutar el Índice de Inteligencia, costando ~$299 a través de la API de Alibaba Cloud. Este uso de tokens es notablemente alto en comparación con modelos de inteligencia similar: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) e incluso el más grande Qwen3.5 397B (86M). Otra información: ➤ Ventana de contexto: 262K tokens (extendible a 1M a través de YaRN) ➤ Licencia: Apache 2.0 ➤ Precios de API (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 por 1M de tokens de entrada/salida

Parte superior

Clasificación

Favoritos