DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Artificial Analysis

Onafhankelijke analyse van AI-modellen en hostingproviders - kies het beste model en de beste API-provider voor uw use-case

Alibaba heeft 4 nieuwe Qwen3.5-modellen uitgebracht van 0.8B tot 9B. De 9B (Redenering, 32 op de Intelligentie-index) is het meest intelligente model onder de 10B parameters, en de 4B (Redenering, 27) het meest intelligente onder de 5B, maar beide gebruiken 200M+ outputtokens om de Intelligentie-index te draaien @Alibaba_Qwen heeft de Qwen3.5-familie uitgebreid met vier kleinere dichte modellen: de 9B (Redenering, 32 op de Intelligentie-index), 4B (Redenering, 27), 2B (Redenering, 16) en 0.8B (Redenering, 9). Deze aanvullen de grotere 397B, 27B, 122B A10B en 35B A3B-modellen die eerder deze maand zijn uitgebracht. Alle modellen zijn gelicentieerd onder Apache 2.0, ondersteunen 262K context, bevatten native visuele ondersteuning en gebruiken dezelfde uniforme denk-/niet-denk hybride aanpak als de rest van de Qwen3.5-familie Belangrijke benchmarkresultaten voor de redeneringsvarianten: ➤ De 9B en 4B zijn de meest intelligente modellen in hun respectieve grootteklassen, voor alle andere modellen onder de 10B parameters. Qwen3.5 9B (32) scoort ongeveer het dubbele van de dichtstbijzijnde modellen onder de 10B: Falcon-H1R-7B (16) en NVIDIA Nemotron Nano 9B V2 (Redenering, 15). Qwen3.5 4B (27) scoort beter dan al deze, ondanks dat het ongeveer de helft van de parameters heeft. Alle vier de kleine Qwen3.5-modellen bevinden zich op de Pareto-grens van de Intelligentie versus Totale Parameters-grafiek ➤ De Qwen3.5-generatie vertegenwoordigt een materiële intelligentieverbetering ten opzichte van Qwen3 over alle sub-10B modelgroottes, met grotere winsten bij hogere totale parameteraantallen. Bij het vergelijken van redeneringsvarianten: Qwen3.5 9B (32) is 15 punten beter dan Qwen3 VL 8B (17), de 4B (27) wint 9 punten ten opzichte van Qwen3 4B 2507 (18), de 2B (16) is 3 punten beter dan Qwen3 1.7B (geschat 13), en de 0.8B (9) wint 2.5 punten ten opzichte van Qwen3 0.6B (6.5). ➤ Alle vier de modellen gebruiken 230-390M outputtokens om de Intelligentie-index te draaien, aanzienlijk meer dan zowel de grotere Qwen3.5-zussen als de Qwen3-voorgangers. Qwen3.5 2B gebruikte ~390M outputtokens, 4B gebruikte ~240M, 0.8B gebruikte ~230M, en 9B gebruikte ~260M. Ter context, de veel grotere Qwen3.5 27B gebruikte 98M en de 397B vlaggenschip gebruikte 86M. Deze tokenaantallen overschrijden ook de meeste grensmodellen: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) en GLM-5 Redenering (109M) ➤ AA-Omniscience is een relatieve zwakte, met hallucinatiepercentages van 80-82% voor de 4B en 9B. Qwen3.5 4B scoort -57 op AA-Omniscience met een hallucinatiepercentage van 80% en een nauwkeurigheid van 12.8%. Qwen3.5 9B scoort -56 met 82% hallucinatie en 14.7% nauwkeurigheid. Deze zijn marginaal beter dan hun Qwen3-voorgangers (Qwen3 4B 2507: -61, 84% hallucinatie, 12.7% nauwkeurigheid), waarbij de verbetering voornamelijk wordt gedreven door lagere hallucinatiepercentages in plaats van hogere nauwkeurigheid. ➤ De Qwen3.5 sub-10B modellen combineren hoge intelligentie met native visie op een schaal die voorheen niet beschikbaar was. Op MMMU-Pro (multimodale redenering) scoort Qwen3.5 9B 69.2% en 4B scoort 65.4%, voor Qwen3 VL 8B (56.6%), Qwen3 VL 4B (52.0%) en Ministral 3 8B (46.0%). De Qwen3.5 0.8B scoort 25.8%, wat opmerkelijk is voor een sub-1B model Andere informatie: ➤ Contextvenster: 262K tokens ➤ Licentie: Apache 2.0 ➤ Kwantisatie: Native gewichten zijn BF16. Alibaba heeft geen eerste partij GPTQ-Int4-kwantisaties voor deze kleine modellen vrijgegeven, hoewel ze dat wel hebben gedaan voor de grotere modellen in de Qwen3.5-familie die eerder zijn uitgebracht (27B, 35B-A3B, 122B-A10B, 397B-A17B). In 4-bits kwantisatie zijn alle vier de modellen toegankelijk op consumentenhardware ➤ Beschikbaarheid: Op het moment van publicatie zijn er geen eerste partij of derde partij serverloze API's die deze modellen hosten.

Alibaba heeft zijn Qwen3.5 modelfamilie uitgebreid met 3 nieuwe modellen - het 27B model is een uitblinker, met een score van 42 op de Artificial Analysis Intelligence Index en het evenaart open gewichten modellen die 8-25x zijn grootte @Alibaba_Qwen heeft de Qwen3.5 familie uitgebreid met drie nieuwe modellen naast de 397B vlaggenschip die eerder deze maand is uitgebracht: de Qwen3.5 27B (Dense, score 42 op de Intelligence Index), Qwen3.5 122B A10B (MoE, 42), en Qwen3.5 35B A3B (MoE, 37). De twee MoE (Mixture-of-Experts) modellen activeren slechts een fractie van de totale parameters per forward pass (10B van 122B en ~3B van 35B respectievelijk). De Intelligence Index is onze synthese-metric die 10 evaluaties omvat die algemene redenering, agenttaken, codering en wetenschappelijke redenering dekt. Alle modellen zijn gelicentieerd onder Apache 2.0, ondersteunen van nature 262K context en keren terug naar de verenigde denken/niet-denken hybride architectuur van de originele Qwen3, nadat Alibaba was overgestapt naar gescheiden Instruct en Reasoning checkpoints met de Qwen3 2507 updates. Belangrijke benchmarkresultaten voor de redeneringsvarianten: ➤ Qwen3.5 27B scoort 42 op de Intelligence Index en is het meest intelligente model onder de 230B. Het dichtstbijzijnde model van vergelijkbare grootte is GLM-4.7-Flash (31B totaal, 3B actief) dat 30 scoort. Open gewichten modellen van equivalente intelligentie zijn 8-25x groter in termen van totale parameters: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42), en GLM-4.7 (357B, 42). In FP8 precisie kost het ~27GB om de modelgewichten op te slaan, terwijl je in 4-bit kwantisatie laptopkwaliteit hardware kunt gebruiken met 16GB+ RAM ➤ Qwen3.5 27B scoort 1205 op GDPval-AA (Agentic Real-World Work Tasks), wat het naast grotere modellen plaatst. Ter context, MiniMax-M2.5 scoort 1206, GLM-4.7 (Reasoning) scoort 1200, en DeepSeek V3.2 (Reasoning) scoort 1194. Dit is bijzonder opmerkelijk voor een model met 27B parameters en suggereert sterke agentcapaciteit voor zijn grootte. GDPval-AA test modellen op real-world taken in 44 beroepen en 9 belangrijke industrieën ➤ AA-Omniscience blijft een relatieve zwakte binnen de Qwen3.5 familie, voornamelijk gedreven door lagere nauwkeurigheid in plaats van hallucinatietarief. Qwen3.5 27B scoort -42 op AA-Omniscience, vergelijkbaar met MiniMax-M2.5 (-40) maar achter DeepSeek V3.2 (-21) en GLM-4.7 (-35). Hoewel het hallucinatietarief van Qwen3.5 27B (80%) lager is dan dat van peers (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), is de nauwkeurigheid ook lager met 21% versus 34% voor DeepSeek V3.2 en 29% voor GLM-4.7. Dit is waarschijnlijk een gevolg van de modelgrootte - we hebben over het algemeen waargenomen dat modellen met meer totale parameters beter presteren op nauwkeurigheid in AA-Omniscience, aangezien bredere kennisherinnering profiteert van grotere parameteraantallen ➤ Qwen3.5 27B is even intelligent als Qwen3.5 122B A10B. De 122B A10B is een Mixture-of-Experts model dat slechts 10B van zijn 122B totale parameters per forward pass activeert. Het 27B model leidt in GDPval-AA (1205 Elo versus 1145 Elo) en iets op TerminalBench (+1.5 p.p.), terwijl het 122B model leidt op SciCode (+2.5 p.p.), HLE (+1.2 p.p.), en een lager hallucinatietarief heeft (Omniscience -40 versus -42) ➤ Qwen3.5 35B A3B (Reasoning, 37) is het meest intelligente model met ~3B actieve parameters, 7 punten voor op GLM-4.7-Flash (30). Andere modellen in deze ~3B actieve categorie zijn Qwen3 Coder Next (80B totaal, 28), Qwen3 Next 80B A3B (27), en NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ Qwen3.5 27B gebruikte 98M outputtokens om de Intelligence Index te draaien, wat ~$299 kost via de Alibaba Cloud API. Dit is opmerkelijk hoog tokenverbruik vergeleken met modellen van vergelijkbare intelligentie: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M), en zelfs het grotere Qwen3.5 397B (86M). Andere informatie: ➤ Contextvenster: 262K tokens (uitbreidbaar tot 1M via YaRN) ➤ Licentie: Apache 2.0 ➤ API-prijzen (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 per 1M input/output tokens

Boven

Positie

Favorieten