DApp Store | Centrum Web3 pro události a hry

Populární témata

Artificial Analysis

Nezávislá analýza modelů AI a poskytovatelů hostingu - vyberte si nejlepší model a poskytovatele API pro váš případ použití

Alibaba uvedla na trh 4 nové modely Qwen3.5 od 0,8B do 9B. 9B (Uvažování, 32 na Indexu inteligence) je nejinteligentnější model pod parametry 10B a model 4B (Uvažování, 27) je nejinteligentnější pod 5B, ale oba používají výstupní tokeny 200M+ pro provoz Indexu inteligence @Alibaba_Qwen rozšířil rodinu Qwen3.5 o čtyři menší husté modely: 9B (Uvažování, 32 na Indexu inteligence), 4B (Uvažování, 27), 2B (Uvažování, 16) a 0,8B (Uvažování, 9). Tyto doplňují větší modely 397B, 27B, 122B A10B a 35B A3B, které byly uvedeny začátkem tohoto měsíce. Všechny modely jsou licencovány na Apache 2.0, podporují 262K kontext, obsahují nativní podporu vidění a používají stejný hybridní přístup jednotného myšlení a nemyšlení jako zbytek rodiny Qwen3.5 Klíčové výsledky benchmarkingu pro varianty uvažování: ➤ 9B a 4B jsou nejinteligentnější modely ve svých příslušných velikostních třídách, před všemi ostatními modely pod parametry 10B. Qwen3.5 9B (32) získává přibližně dvojnásobek skóre oproti dalším nejbližším modelům pod 10B: Falcon-H1R-7B (16) a NVIDIA Nemotron Nano 9B V2 (Reasoning, 15). Qwen3.5 4B (27) překonává všechny tyto body, přestože má zhruba polovinu parametrů. Všechny čtyři malé modely Qwen3.5 jsou na Pareto hranici v grafu Inteligence vs. Total Parameters ➤ Generace Qwen3.5 představuje nárůst materiální inteligence oproti Qwen3 ve všech modelech pod 10B, s většími zisky při vyšším celkovém počtu parametrů. Porovnávání variant uvažování: Qwen3.5 9B (32) je o 15 bodů před Qwen3 VL 8B (17), 4B (27) získává o 9 bodů oproti Qwen3 4B 2507 (18), 2B (16) je o 3 body před Qwen3 1,7B (odhadem 13) a 0.8B (9) získává o 2,5 bodu oproti Qwen3 0.6B (6.5). ➤ Všechny čtyři modely používají výstupní tokeny o hodnotě 230–390 milionů pro provoz Intelligence Indexu, což je výrazně více než větší sourozenci Qwen3.5 i předchůdci Qwen3. Qwen3.5 2B používalo ~390M výstupních tokenů, 4B ~240M, 0.8B ~230M a 9B ~260M. Pro kontext, mnohem větší Qwen3.5 27B používal 98M a vlajková loď 397B 86M. Tyto počty tokenů také převyšují většinu modelů Frontier: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) a GLM-5 Reasoning (109M) ➤ AA-Vševědoucnost je relativní slabina, s mírou halucinací 80–82 % u 4B a 9B. Qwen3.5 4B dosahuje skóre -57 na AA-Vševědoucnost s mírou halucinací 80 % a přesností 12,8 %. Qwen3.5 9B skóre -56 s 82% halucinací a 14,7% přesností. Tyto jsou o něco lepší než jejich předchůdci Qwen3 (Qwen3 4B 2507: -61, 84 % halucinace, 12,7 % přesnost), přičemž zlepšení je způsobeno především nižšími mírami halucinací, nikoli vyšší přesností. ➤ Modely Qwen3.5 pod 10B kombinují vysokou inteligenci s nativním viděním v měřítku, které dosud nebylo dostupné. Na MMMU-Pro (multimodální uvažování) Qwen3.5 9B dosahuje 69,2 % a 4B skóre 65,4 %, před Qwen3 VL 8B (56,6 %), Qwen3 VL 4B (52,0 %) a Ministral 3 8B (46,0 %). Qwen3.5 0.8B dosahuje skóre 25,8 %, což je pozoruhodné u modelu pod 1B Další informace: ➤ Kontextové okno: 262K tokenů ➤ Licence: Apache 2.0 ➤ Kvantizace: Nativní váhy jsou BF16. Alibaba nevydávala první strany kvantizace GPTQ-Int4 pro tyto malé modely, ale pro větší modely z rodiny Qwen3.5 vydaných dříve (27B, 35B-A3B, 122B-A10B, 397B-A17B) již ano. V 4bitové kvantizaci jsou všechny čtyři modely dostupné na spotřebitelském hardwaru ➤ Dostupnost: V době vydání neexistují serverless API od první strany ani třetích stran hostující tyto modely

Alibaba rozšířila svou modelovou rodinu Qwen3.5 o 3 nové modely – model 27B vyniká s 42. bodem v Indexu umělé analýzy inteligence a odpovídá otevřeným modelům 8–25x větší velikosti @Alibaba_Qwen rozšířil rodinu Qwen3.5 o tři nové modely vedle vlajkové lodi 397B, která byla uvedena začátkem tohoto měsíce: Qwen3.5 27B (Dense, skóre 42 v indexu inteligence), Qwen3.5 122B A10B (MoE, 42) a Qwen3.5 35B A3B (MoE, 37). Oba modely MoE (Mixture-of-Expert) aktivují pouze zlomek celkových parametrů na jeden průchod vpřed (10B z 122B a ~3B z 35B). Index inteligence je naše syntetická metrika, která zahrnuje 10 hodnocení pokrývajících obecné uvažování, agentické úkoly, programování a vědecké uvažování. Všechny modely jsou licencovány na Apache 2.0, nativně podporují 262K kontext a vracejí se k hybridní architektuře sjednoceného myšlení/nemyšlení z původního Qwen3, poté co Alibaba přešla na samostatné kontrolní body Instruct a Reasoning s aktualizacemi Qwen3 2507. Klíčové výsledky benchmarkingu pro varianty uvažování: ➤ Qwen3.5 27B dosahuje 42 bodů na Indexu inteligence a je nejinteligentnějším modelem pod 230B. Nejbližší model podobné velikosti je GLM-4.7-Flash (celkem 31B, 3B aktivní), který dosahuje skóre 30. Modely s otevřenými váhami ekvivalentní inteligence jsou 8–25krát větší z hlediska celkových parametrů: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) a GLM-4.7 (357B, 42). V FP8 precision trvá uložení hmotností modelu ~27GB, zatímco ve 4bitové kvantizaci můžete použít hardware v kvalitě notebooku s 16GB+ RAM ➤ Qwen3.5 27B dosahuje skóre 1205 na GDPval-AA (Agentic Real-World Work Tasks), což jej řadí vedle větších modelů. Pro kontext, MiniMax-M2.5 skóre 1206, GLM-4.7 (Uvažování) 1200 a DeepSeek V3.2 (Uvažování) 1194. To je zvláště pozoruhodné u modelu s 27B parametry a naznačuje silnou agentickou schopnost vzhledem k jeho velikosti. GDPval-AA testuje modely na reálných úkolech napříč 44 profesemi a 9 hlavními odvětvími ➤ AA-Vševědoucnost zůstává relativní slabinou v celé rodině Qwen3.5, způsobenou především nižší přesností, nikoli halucinací. Qwen3.5 27B dosahuje skóre -42 na AA-Omniscience, což je srovnatelné s MiniMax-M2.5 (-40), ale za DeepSeek V3.2 (-21) a GLM-4.7 (-35). Ačkoli míra halucinací Qwen3.5 27B (80 %) je nižší než u konkurentů (GLM-4.7 90 %, MiniMax 89 %, DeepSeek 82 %), její přesnost je také nižší, 21 % oproti 34 % u DeepSeek V3.2 a 29 % u GLM-4.7. To je pravděpodobně důsledek velikosti modelu – obecně jsme pozorovali, že modely s více celkovými parametry dosahují lepších výsledků přesnosti v AA-Omniscience, protože širší paměť znalostí těží z většího počtu parametrů ➤ Qwen3.5 27B je ekvivalentně inteligentní Qwen3.5 122B A10B. Model 122B A10B je model směsi expertů, který aktivuje pouze 10B ze svých celkových parametrů 122B na jeden průchod vpřed. Model 27B vede v GDPval-AA (1205 Elo vs 1145 Elo) a mírně za TerminalBench (+1,5 p.p.), zatímco model 122B vede ve SciCode (+2.5 p.p.), HLE (+1.2 p.p.) a má nižší míru halucinací (Omniscience -40 vs -42) ➤ Qwen3.5 35B A3B (Uvažování, 37) je nejinteligentnější model s ~3B aktivními parametry, o 7 bodů před GLM-4.7-Flash (30). Mezi další modely v této ~3B aktivní kategorii patří Qwen3 Coder Next (celkem 80B, 28), Qwen3 Next 80B A3B (27) a NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ Qwen3.5 27B použilo 98 milionů výstupních tokenů k provozu Intelligence Indexu, což stálo ~$299 přes Alibaba Cloud API. To je výrazně vysoké využití tokenů ve srovnání s modely s podobnou inteligencí: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) a dokonce i větší Qwen3.5 397B (86M). Další informace: ➤ Kontextové okno: 262K tokenů (rozšiřitelné na 1M přes YaRN) ➤ Licence: Apache 2.0 ➤ Ceny API (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 za 1M vstupní/výstupní tokeny

Top

Hodnocení

Oblíbené