Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Artificial Analysis

Независимый анализ моделей ИИ и хостинг-провайдеров - выберите лучшую модель и поставщика API для вашего сценария использования

Alibaba выпустила 4 новые модели Qwen3.5 от 0.8B до 9B. Модель 9B (Reasoning, 32 по Индексу Интеллекта) является самой интеллектуальной моделью с параметрами менее 10B, а 4B (Reasoning, 27) — самой интеллектуальной моделью с параметрами менее 5B, но обе используют более 200M выходных токенов для работы с Индексом Интеллекта. @Alibaba_Qwen расширила семью Qwen3.5 четырьмя меньшими плотными моделями: 9B (Reasoning, 32 по Индексу Интеллекта), 4B (Reasoning, 27), 2B (Reasoning, 16) и 0.8B (Reasoning, 9). Эти модели дополняют более крупные модели 397B, 27B, 122B A10B и 35B A3B, выпущенные ранее в этом месяце. Все модели имеют лицензию Apache 2.0, поддерживают контекст 262K, включают нативную поддержку зрения и используют тот же унифицированный подход к мышлению/немышлению, что и остальные модели семейства Qwen3.5. Ключевые результаты бенчмаркинга для вариантов reasoning: ➤ 9B и 4B являются самыми интеллектуальными моделями в своих классах размеров, опережая все другие модели с параметрами менее 10B. Qwen3.5 9B (32) набирает примерно в два раза больше, чем ближайшие модели с параметрами менее 10B: Falcon-H1R-7B (16) и NVIDIA Nemotron Nano 9B V2 (Reasoning, 15). Qwen3.5 4B (27) обходит все эти модели, несмотря на то, что имеет примерно половину параметров. Все четыре маленькие модели Qwen3.5 находятся на границе Парето в графике Интеллекта против Общих Параметров. ➤ Поколение Qwen3.5 представляет собой значительное повышение интеллекта по сравнению с Qwen3 во всех моделях с параметрами менее 10B, с большими приростами при более высоких общих количествах параметров. Сравнивая варианты reasoning: Qwen3.5 9B (32) на 15 пунктов опережает Qwen3 VL 8B (17), 4B (27) набирает на 9 пунктов больше, чем Qwen3 4B 2507 (18), 2B (16) на 3 пункта опережает Qwen3 1.7B (оценка 13), а 0.8B (9) набирает на 2.5 пункта больше, чем Qwen3 0.6B (6.5). ➤ Все четыре модели используют 230-390M выходных токенов для работы с Индексом Интеллекта, что значительно больше, чем у более крупных сестер Qwen3.5 и предшественников Qwen3. Qwen3.5 2B использовала ~390M выходных токенов, 4B использовала ~240M, 0.8B использовала ~230M, а 9B использовала ~260M. Для контекста, гораздо более крупная Qwen3.5 27B использовала 98M, а флагманская модель 397B использовала 86M. Эти количества токенов также превышают большинство моделей на переднем крае: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) и GLM-5 Reasoning (109M). ➤ AA-Omniscience является относительной слабостью, с уровнями галлюцинаций 80-82% для 4B и 9B. Qwen3.5 4B набирает -57 по AA-Omniscience с уровнем галлюцинаций 80% и точностью 12.8%. Qwen3.5 9B набирает -56 с 82% галлюцинаций и 14.7% точности. Эти результаты немного лучше, чем у их предшественников Qwen3 (Qwen3 4B 2507: -61, 84% галлюцинаций, 12.7% точности), при этом улучшение в первую очередь обусловлено более низкими уровнями галлюцинаций, а не более высокой точностью. ➤ Модели Qwen3.5 с параметрами менее 10B объединяют высокий интеллект с нативным зрением на масштабе, который ранее был недоступен. На MMMU-Pro (мультимодальное reasoning) Qwen3.5 9B набирает 69.2%, а 4B набирает 65.4%, опережая Qwen3 VL 8B (56.6%), Qwen3 VL 4B (52.0%) и Ministral 3 8B (46.0%). Qwen3.5 0.8B набирает 25.8%, что примечательно для модели с параметрами менее 1B. Дополнительная информация: ➤ Окно контекста: 262K токенов ➤ Лицензия: Apache 2.0 ➤ Квантование: Нативные веса — BF16. Alibaba не выпустила квантования GPTQ-Int4 первого уровня для этих маленьких моделей, хотя они выпустили их для более крупных моделей в семействе Qwen3.5, выпущенных ранее (27B, 35B-A3B, 122B-A10B, 397B-A17B). В 4-битном квантовании все четыре модели доступны на потребительском оборудовании. ➤ Доступность: На момент публикации нет серверных API первого или третьего уровня, которые бы размещали эти модели.

Alibaba расширила свою модельную семью Qwen3.5 тремя новыми моделями - модель 27B выделяется, набирая 42 балла в Индексе Искусственного Интеллекта и соответствуя моделям с открытыми весами, которые в 8-25 раз больше по размеру. @Alibaba_Qwen расширила семью Qwen3.5 тремя новыми моделями наряду с флагманом 397B, выпущенным ранее в этом месяце: Qwen3.5 27B (Dense, набирает 42 балла в Индексе Интеллекта), Qwen3.5 122B A10B (MoE, 42) и Qwen3.5 35B A3B (MoE, 37). Две модели MoE (Смешанная Модель Экспертов) активируют только часть общих параметров за один проход (10B из 122B и ~3B из 35B соответственно). Индекс Интеллекта - это наша синтетическая метрика, включающая 10 оценок, охватывающих общее рассуждение, агентные задачи, кодирование и научное рассуждение. Все модели лицензированы по Apache 2.0, нативно поддерживают 262K контекста и возвращаются к объединенной гибридной архитектуре мышления/немышления из оригинального Qwen3, после того как Alibaba перешла на отдельные контрольные точки Инструкций и Рассуждений с обновлениями Qwen3 2507. Ключевые результаты бенчмаркинга для вариантов рассуждений: ➤ Qwen3.5 27B набирает 42 балла в Индексе Интеллекта и является самой интеллектуальной моделью среди моделей менее 230B. Ближайшая модель аналогичного размера - GLM-4.7-Flash (31B всего, 3B активных), которая набирает 30. Модели с открытыми весами эквивалентного интеллекта в 8-25 раз больше по общему количеству параметров: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) и GLM-4.7 (357B, 42). В FP8 точности требуется ~27GB для хранения весов модели, в то время как в 4-битной квантизации можно использовать оборудование качества ноутбука с 16GB+ ОЗУ. ➤ Qwen3.5 27B набирает 1205 баллов на GDPval-AA (Агентные Задачи Реального Мира), ставя его наравне с более крупными моделями. Для контекста, MiniMax-M2.5 набирает 1206, GLM-4.7 (Рассуждение) набирает 1200, а DeepSeek V3.2 (Рассуждение) набирает 1194. Это особенно примечательно для модели с 27B параметрами и предполагает сильные агентные способности для своего размера. GDPval-AA тестирует модели на реальных задачах в 44 профессиях и 9 основных отраслях. ➤ AA-Omniscience остается относительной слабостью в семье Qwen3.5, в первую очередь из-за низкой точности, а не из-за уровня галлюцинаций. Qwen3.5 27B набирает -42 на AA-Omniscience, сопоставимо с MiniMax-M2.5 (-40), но отстает от DeepSeek V3.2 (-21) и GLM-4.7 (-35). Хотя уровень галлюцинаций Qwen3.5 27B (80%) ниже, чем у аналогов (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), его точность также ниже - 21% против 34% для DeepSeek V3.2 и 29% для GLM-4.7. Это, вероятно, следствие размера модели - мы обычно наблюдали, что модели с большим количеством параметров показывают лучшие результаты по точности в AA-Omniscience, так как более широкий объем знаний выигрывает от большего количества параметров. ➤ Qwen3.5 27B по интеллекту эквивалентен Qwen3.5 122B A10B. 122B A10B - это модель Смешанной Модели Экспертов, которая активирует только 10B из своих 122B общих параметров за один проход. Модель 27B лидирует в GDPval-AA (1205 Elo против 1145 Elo) и немного на TerminalBench (+1.5 п.п.), в то время как модель 122B лидирует на SciCode (+2.5 п.п.), HLE (+1.2 п.п.) и имеет более низкий уровень галлюцинаций (Omniscience -40 против -42). ➤ Qwen3.5 35B A3B (Рассуждение, 37) является самой интеллектуальной моделью с ~3B активных параметров, на 7 пунктов опережая GLM-4.7-Flash (30). Другие модели в этой категории с ~3B активных параметров включают Qwen3 Coder Next (80B всего, 28), Qwen3 Next 80B A3B (27) и NVIDIA Nemotron 3 Nano 30B A3B (24). ➤ Qwen3.5 27B использовала 98M выходных токенов для запуска Индекса Интеллекта, стоимостью ~$299 через API Alibaba Cloud. Это заметно высокое использование токенов по сравнению с моделями аналогичного интеллекта: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) и даже более крупный Qwen3.5 397B (86M). Дополнительная информация: ➤ Окно контекста: 262K токенов (расширяемое до 1M через YaRN) ➤ Лицензия: Apache 2.0 ➤ Цены на API (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 за 1M входных/выходных токенов.

Топ

Рейтинг

Избранное