Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Artificial Analysis

Незалежний аналіз моделей штучного інтелекту та хостинг-провайдерів - виберіть найкращу модель та API провайдера для вашого випадку використання

Alibaba випустила 4 нові моделі Qwen3.5 з 0.8B до 9B. 9B (Reasoning, 32 за індексом інтелекту) є найрозумнішою моделлю за параметрами 10B, а 4B (Reasoning, 27) — найрозумнішою за 5B, але обидві використовують токени 200M+ для запуску Індексу інтелекту @Alibaba_Qwen розширила сімейство Qwen3.5 чотирма меншими щільними моделями: 9B (Reasoning, 32 за індексом інтелекту), 4B (Reasoning, 27), 2B (Reasoning, 16) та 0.8B (Reasoning, 9). Вони доповнюють більші моделі 397B, 27B, 122B A10B та 35B A3B, випущені раніше цього місяця. Усі моделі мають ліцензію Apache 2.0, підтримують контекст 262K, мають підтримку нативного зору та використовують той самий гібридний підхід уніфікованого мислення/немислення, що й решта сімейства Qwen3.5 Ключові результати бенчмаркінгу для варіантів міркування: ➤ 9B і 4B є найрозумнішими моделями у своїх відповідних розмірних класах, випереджаючи всі інші моделі з параметрами 10B. Qwen3.5 9B (32) приблизно вдвічі перевищує наступні найближчі моделі нижче 10B: Falcon-H1R-7B (16) та NVIDIA Nemotron Nano 9B V2 (Reasoning, 15). Qwen3.5 4B (27) перевершує всі ці показники, хоча має приблизно половину менших параметрів. Усі чотири малі моделі Qwen3.5 знаходяться на межі Парето в діаграмі інтелекту проти загальних параметрів ➤ Покоління Qwen3.5 є матеріальним підвищенням інтелекту порівняно з Qwen3 у всіх розмірах моделей нижче 10B, з більшим приростом при більшій кількості загальних параметрів. Порівнюючи варіанти міркування: Qwen3.5 9B (32) на 15 пунктів випереджає Qwen3 VL 8B (17), 4B (27) набирає 9 пунктів порівняно з Qwen3 4B 2507 (18), 2B (16) на 3 пункти випереджає Qwen3 1.7B (оцінюється 13), а 0.8B (9) на 2.5 пунктів порівняно з Qwen3 0.6B (6.5). ➤ Усі чотири моделі використовують токени 230-390M для роботи Індексу Інтелекту, що значно більше, ніж як більші Qwen3.5, так і попередники Qwen3. Qwen3.5 2B використовувала токени виводу ~390M, 4B — ~240M, 0.8B — ~230M, а 9B — ~260M. Для контексту: значно більший Qwen3.5 27B використовував 98M, а флагман 397B — 86M. Кількість цих токенів також перевищує більшість моделей Frontier: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) та GLM-5 Reasoning (109M) ➤ AA-Всезнання є відносною слабкістю, з рівнем галюцинацій 80-82% для 4B і 9B. Qwen3.5 4B має -57 на AA-Omniscience, рівень галюцинацій 80% і точність 12,8%. Qwen3.5 9B має -56 з 82% галюцинацій і точністю 14,7%. Вони трохи кращі за своїх попередників Qwen3 (Qwen3 4B 2507: -61, 84% галюцинації, 12,7% точності), причому покращення зумовлено переважно нижчим рівнем галюцинацій, а не вищою точністю. ➤ Моделі Qwen3.5 sub-10B поєднують високий інтелект із нативним зором у масштабах, які раніше були недоступні. У MMMU-Pro (мультимодальне мислення) Qwen3.5 9B набирає 69,2%, а 4B — 65,4%, випереджаючи Qwen3 VL 8B (56,6%), Qwen3 VL 4B (52,0%) та Ministral 3 8B (46,0%). Qwen3.5 0.8B набирає 25,8%, що є помітним для моделі нижче 1B Інша інформація: ➤ Контекстне вікно: 262K токенів ➤ Ліцензія: Apache 2.0 ➤ Квантування: Рідні ваги — BF16. Alibaba не випускала оригінальні квантування GPTQ-Int4 для цих малих моделей, хоча це зробило для більших моделей сімейства Qwen3.5, які були випущені раніше (27B, 35B-A3B, 122B-A10B, 397B-A17B). У 4-бітній квантуванні всі чотири моделі доступні на споживчому апаратному забезпеченні ➤ Доступність: На момент публікації не існує сторонніх або сторонніх серверних API, які розміщують ці моделі

Alibaba розширила свою модель Qwen3.5 трьома новими моделями — модель 27B виділяється, отримавши 42 бали в Індексі штучного аналізу інтелекту та відповідаючи моделям з відкритими вагами у 8-25 разів більшими за розміром @Alibaba_Qwen розширив сімейство Qwen3.5 трьома новими моделями разом із флагманським 397B, який випущений на початку цього місяця: Qwen3.5 27B (щільність, 42 бали за індексом інтелекту), Qwen3.5 122B A10B (MoE, 42) та Qwen3.5 35B A3B (MoE, 37). Дві моделі MoE (Mix-of-Experts) активують лише частку від загальної кількості параметрів за один прямий прохід (10B з 122B і ~3B з 35B відповідно). Індекс інтелекту — це наша синтезна метрика, що включає 10 оцінок, що охоплюють загальне мислення, агентні завдання, кодування та наукове мислення. Усі моделі ліцензовані на Apache 2.0, нативно підтримують контекст 262K і повертаються до гібридної архітектури уніфікованого мислення/немислення з оригінального Qwen3, після того як Alibaba перейшла на окремі контрольні точки Інструкції та Reasoning з оновленнями Qwen3 2507. Ключові результати бенчмаркінгу для варіантів міркування: ➤ Qwen3.5 27B має 42 бали за індексом інтелекту і є найрозумнішою моделлю з 230B. Найближча модель подібного розміру — GLM-4.7-Flash (загалом 31B, 3B активний), яка набрала 30 балів. Відкриті моделі еквівалентного інтелекту у 8-25 разів більші за загальними параметрами: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) та GLM-4.7 (357B, 42). У точності FP8 зберігається ~27GB для зберігання ваг моделей, тоді як у 4-бітній квантуванні можна використовувати апаратне забезпечення якості ноутбука з 16GB+ оперативної пам'яті ➤ Qwen3.5 27B отримує 1205 балів за GDPval-AA (Agentic Real-World Work Tasks), що ставить його поруч із більшими моделями. Для контексту: MiniMax-M2.5 має 1206 балів, GLM-4.7 (Reasoning) — 1200, а DeepSeek V3.2 (Reasoning) — 1194. Це особливо помітно для моделі параметрів 27B і свідчить про потужні агентні можливості для її розміру. GDPval-AA тестує моделі на реальних завданнях у 44 професіях і 9 основних галузях ➤ AA-Всезнання залишається відносною слабкістю в сімействі Qwen3.5, зумовленою переважно нижчою точністю, а не рівнем галюцинацій. Qwen3.5 27B оцінює -42 на AA-Omniscience, що порівняно з MiniMax-M2.5 (-40), але поступається DeepSeek V3.2 (-21) та GLM-4.7 (-35). Хоча рівень галюцинацій у Qwen3.5 27B (80%) нижчий, ніж у конкурентів (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), точність також нижча — 21% проти 34% у DeepSeek V3.2 і 29% у GLM-4.7. Це, ймовірно, наслідок розміру моделі — ми зазвичай спостерігали, що моделі з більшою кількістю загальних параметрів краще працюють за точністю в AA-Omniscience, оскільки ширше пам'ятання знань виграє від більшої кількості параметрів ➤ Qwen3.5 27B еквівалентно інтелектний Qwen3.5 122B A10B. 122B A10B — це модель Mix-of-Experts, яка активує лише 10B із 122B загальних параметрів за один прямий проход. Модель 27B лідирує за GDPval-AA (1205 Elo проти 1145 Elo) і трохи на TerminalBench (+1.5 p.p.), тоді як модель 122B лідирує за SciCode (+2.5 p.p.), HLE (+1.2 p.p.) і має нижчий рівень галюцинацій (Omniscience -40 проти -42) ➤ Qwen3.5 35B A3B (Reasoning, 37) — найрозумніша модель з активними параметрами ~3B, на 7 пунктів попереду GLM-4.7-Flash (30). Інші моделі в цій активній категорії ~3B включають Qwen3 Coder Next (всього 80B, 28), Qwen3 Next 80B A3B (27) та NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ Qwen3.5 27B використовував 98M вихідних токенів для запуску Індексу Інтелекту, вартість яких становила ~$299 через API Alibaba Cloud. Це помітно високе використання токенів порівняно з моделями з подібним інтелектом: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) і навіть більший Qwen3.5 397B (86M). Інша інформація: ➤ Контекстне вікно: 262K токенів (можна розширити до 1M через YaRN) ➤ Ліцензія: Apache 2.0 ➤ Ціноутворення API (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 за 1M токенів введення/виведення

Найкращі

Рейтинг

Вибране