DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Artificial Analysis

Oberoende analys av AI-modeller och hostingleverantörer - välj den bästa modellen och API-leverantören för ditt användningsfall

Alibaba har släppt fyra nya Qwen3.5-modeller från 0,8B till 9B. 9B (Reasoning, 32 på Intelligence Index) är den mest intelligenta modellen under 10B parametrar, och 4B (Reasoning, 27) den mest intelligenta under 5B, men båda använder 200M+ outputtokens för att köra Intelligence Index @Alibaba_Qwen har utökat Qwen3.5-familjen med fyra mindre täta modeller: 9B (Reasoning, 32 på Intelligence Index), 4B (Reasoning, 27), 2B (Reasoning, 16) och 0.8B (Reasoning, 9). Dessa kompletterar de större modellerna 397B, 27B, 122B A10B och 35B A3B som släpptes tidigare denna månad. Alla modeller är Apache 2.0-licensierade, stödjer 262K-kontext, inkluderar inbyggt visionsstöd och använder samma hybrida tänkande/icke-tänkande metod som resten av Qwen3.5-familjen Viktiga benchmarkingresultat för resonemangsvarianterna: ➤ 9B och 4B är de mest intelligenta modellerna i sina respektive storleksklasser, före alla andra modeller under 10B-parametrar. Qwen3.5 9B (32) får ungefär dubbelt så många som nästa närmaste modeller under 10B: Falcon-H1R-7B (16) och NVIDIA Nemotron Nano 9B V2 (Reasoning, 15). Qwen3.5 4B (27) överträffar alla dessa trots att den har ungefär hälften av parametrarna. Alla fyra små Qwen3.5-modeller ligger på Pareto-gränsen för diagrammet Intelligens vs. Totala parametrar ➤ Qwen3.5-genereringen representerar en materiell intelligensökning jämfört med Qwen3 över alla modeller under 10 miljarder, med större vinster vid högre totala parameterantal. Jämförelse av resonemangsvarianter: Qwen3.5 9B (32) ligger 15 poäng före Qwen3 VL 8B (17), 4B (27) går 9 poäng över Qwen3 4B 2507 (18), 2B (16) ligger 3 poäng före Qwen3 1.7B (uppskattad 13), och 0,8B (9) går upp 2,5 poäng över Qwen3 0,6B (6,5). ➤ Alla fyra modeller använder 230–390 miljoner utdatatoken för att köra Intelligence Index, betydligt mer än både de större Qwen3.5-syskonen och Qwen3-föregångarna. Qwen3.5 2B använde ~390M utgångstoken, 4B använde ~240M, 0.8B använde ~230M och 9B använde ~260M. För kontext använde den mycket större Qwen3.5 27B 98M och flaggskeppet 397B 86M. Dessa tokenantal överstiger också de flesta frontier-modeller: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) och GLM-5 Reasoning (109M) ➤ AA-Allvetande är en relativ svaghet, med hallucinationsfrekvenser på 80–82 % för 4B och 9B. Qwen3.5 4B får -57 på AA-Omniscience med en hallucinationsfrekvens på 80 % och noggrannhet på 12,8 %. Qwen3.5 9B får -56 poäng med 82 % hallucinationer och 14,7 % träffsäkerhet. Dessa är marginellt bättre än sina Qwen3-föregångare (Qwen3 4B 2507: -61, 84 % hallucinationer, 12,7 % noggrannhet), med förbättringen främst driven av lägre hallucinationsfrekvenser snarare än högre noggrannhet. ➤ Qwen3.5 sub-10B-modellerna kombinerar hög intelligens med inhemsk syn i en skala som tidigare inte var tillgänglig. På MMMU-Pro (multimodal logik) får Qwen3,5 9B 69,2 % och 4B 65,4 %, före Qwen3 VL 8B (56,6 %), Qwen3 VL 4B (52,0 %) och Ministral 3 8B (46,0 %). Qwen3.5 0.8B får 25,8 %, vilket är anmärkningsvärt för en modell under 1B Övrig information: ➤ Kontextfönster: 262K tokens ➤ Licens: Apache 2.0 ➤ Kvantisering: Nativa vikter är BF16. Alibaba har inte släppt förstaparts GPTQ-Int4-kvantiseringar för dessa små modeller, men de har gjort det för de större modellerna i Qwen3.5-familjen som släppts tidigare (27B, 35B-A3B, 122B-A10B, 397B-A17B). I 4-bitars kvantisering är alla fyra modeller tillgängliga på konsumenthårdvara ➤ Tillgänglighet: Vid publiceringstillfället finns inga förstaparts- eller tredjeparts-serverlösa API:er som hostar dessa modeller

Alibaba har utökat sin Qwen3.5-modellfamilj med 3 nya modeller – 27B-modellen är en utmärkelse, med 42 poäng på Artificial Analysis Intelligence Index och matchar öppna viktmodeller 8–25 gånger sin storlek @Alibaba_Qwen har utökat Qwen3.5-familjen med tre nya modeller tillsammans med flaggskeppet 397B som släpptes tidigare denna månad: Qwen3.5 27B (Dense, med 42 poäng på Intelligence Index), Qwen3.5 122B A10B (MoE, 42) och Qwen3.5 35B A3B (MoE, 37). De två MoE (Mixture-of-Experts)-modellerna aktiverar endast en bråkdel av de totala parametrarna per framåtpassning (10B av 122B respektive ~3B av 35B). Intelligensindexet är vårt syntesmått som inkluderar 10 utvärderingar som täcker allmänt resonemang, agentiska uppgifter, kodning och vetenskapligt resonemang. Alla modeller är Apache 2.0-licensierade, stöder inbyggt 262K-kontext och återgår till den hybridarkitekturen för enhetligt tänkande/icke-tänkande från ursprungliga Qwen3, efter att Alibaba gick över till separata kontrollpunkter för Instruct och Reasoning med Qwen3 2507-uppdateringarna. Viktiga benchmarkingresultat för resonemangsvarianterna: ➤ Qwen3.5 27B får 42 på Intelligence Index och är den mest intelligenta modellen under 230B. Den närmaste modellen av liknande storlek är GLM-4.7-Flash (totalt 31 miljarder, 3 miljarder aktiva) som får 30 poäng. Öppna viktmodeller med ekvivalent intelligens är 8–25 gånger större i termer av totala parametrar: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) och GLM-4.7 (357B, 42). I FP8 Precision krävs ~27GB för att lagra modellvikterna, medan du i 4-bitars kvantisering kan använda laptop-kvalitetshårdvara med 16GB+ RAM ➤ Qwen3.5 27B får 1205 poäng på GDPval-AA (Agentic Real-World Work Tasks), vilket placerar det bland större modeller. För kontext får MiniMax-M2.5 1206, GLM-4.7 (Resonemang) 1200 och DeepSeek V3.2 (Resonemang) 1194. Detta är särskilt anmärkningsvärt för en 27B-parametermodell och antyder stark agentisk kapacitet för dess storlek. GDPval-AA testar modeller på verkliga uppgifter inom 44 yrken och 9 stora industrier ➤ AA-Allvetande är fortfarande en relativ svaghet inom Qwen3.5-familjen, främst driven av lägre noggrannhet snarare än hallucinationsfrekvens. Qwen3.5 27B får -42 på AA-Omniscience, jämförbart med MiniMax-M2.5 (-40) men ligger bakom DeepSeek V3.2 (-21) och GLM-4.7 (-35). Även om Qwen3.5 27B:s hallucinationsfrekvens (80 %) är lägre än jämförbara (GLM-4,7 90 %, MiniMax 89 %, DeepSeek 82 %), är dess noggrannhet också lägre med 21 % jämfört med 34 % för DeepSeek V3,2 och 29 % för GLM-4,7. Detta är sannolikt en följd av modellstorleken – vi har generellt observerat att modeller med fler totala parametrar presterar bättre på noggrannhet i AA-Omniscience, eftersom bredare kunskapsinkallning gynnas av större parameterantal ➤ Qwen3.5 27B är likvärdigt intelligent som Qwen3.5 122B A10B. 122B A10B är en Mixture-of-Experts-modell som endast aktiverar 10B av sina totala 122B parametrar per framåtpass. 27B-modellen leder i GDPval-AA (1205 Elo mot 1145 Elo) och något på TerminalBench (+1,5 p.p.), medan 122B-modellen leder på SciCode (+2,5 p.p.), HLE (+1,2 p.p.) och har en lägre hallucinationsfrekvens (Omniscience -40 vs -42) ➤ Qwen3.5 35B A3B (Reasoning, 37) är den mest intelligenta modellen med ~3B aktiva parametrar, 7 poäng före GLM-4.7-Flash (30). Andra modeller i denna ~3B aktiva kategori inkluderar Qwen3 Coder Next (totalt 80 miljarder, 28), Qwen3 Next 80B A3B (27) och NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ Qwen3.5 27B använde 98 miljoner utdatatoken för att köra Intelligence Index, vilket kostade ~299 dollar via Alibaba Cloud API. Detta är anmärkningsvärt hög tokenanvändning jämfört med modeller med liknande intelligens: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) och till och med den större Qwen3.5 397B (86M). Övrig information: ➤ Kontextfönster: 262K tokens (kan utökas till 1M via YaRN) ➤ Licens: Apache 2.0 ➤ API-prissättning (Alibaba Cloud): 397B: $0,60/$3,60, 122B: $0,40/$3,20, 27B: $0,30/$2,40, 35B A3B: $0,25/$2,00 per 1 miljon in-/utmatningstoken

Topp

Rankning

Favoriter