DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Artificial Analysis

Unabhängige Analyse von KI-Modellen und Hosting-Providern - wählen Sie das beste Modell und den besten API-Anbieter für Ihren Anwendungsfall

Alibaba hat 4 neue Qwen3.5-Modelle von 0,8B bis 9B veröffentlicht. Das 9B-Modell (Reasoning, 32 im Intelligence Index) ist das intelligenteste Modell unter 10B Parametern, und das 4B-Modell (Reasoning, 27) ist das intelligenteste unter 5B, aber beide verwenden über 200M Ausgabetokens, um den Intelligence Index auszuführen. @Alibaba_Qwen hat die Qwen3.5-Familie mit vier kleineren dichten Modellen erweitert: das 9B (Reasoning, 32 im Intelligence Index), 4B (Reasoning, 27), 2B (Reasoning, 16) und 0,8B (Reasoning, 9). Diese ergänzen die größeren Modelle 397B, 27B, 122B A10B und 35B A3B, die Anfang dieses Monats veröffentlicht wurden. Alle Modelle sind unter der Apache 2.0-Lizenz lizenziert, unterstützen 262K Kontext, beinhalten native Vision-Unterstützung und verwenden denselben einheitlichen Denk-/Nicht-Denk-Hybridansatz wie der Rest der Qwen3.5-Familie. Wichtige Benchmarking-Ergebnisse für die Reasoning-Varianten: ➤ Das 9B- und 4B-Modell sind die intelligentesten Modelle in ihren jeweiligen Größenklassen, vor allen anderen Modellen unter 10B Parametern. Qwen3.5 9B (32) erzielt ungefähr das Doppelte der nächsten nahen Modelle unter 10B: Falcon-H1R-7B (16) und NVIDIA Nemotron Nano 9B V2 (Reasoning, 15). Qwen3.5 4B (27) übertrifft all diese, obwohl es ungefähr die Hälfte der Parameter hat. Alle vier kleinen Qwen3.5-Modelle befinden sich an der Pareto-Front des Intelligence vs. Total Parameters-Diagramms. ➤ Die Qwen3.5-Generation stellt einen erheblichen Intelligenzgewinn gegenüber Qwen3 in allen Modellen unter 10B dar, mit größeren Gewinnen bei höheren Gesamtparameterzahlen. Im Vergleich der Reasoning-Varianten: Qwen3.5 9B (32) liegt 15 Punkte vor Qwen3 VL 8B (17), das 4B (27) gewinnt 9 Punkte gegenüber Qwen3 4B 2507 (18), das 2B (16) liegt 3 Punkte vor Qwen3 1,7B (geschätzt 13), und das 0,8B (9) gewinnt 2,5 Punkte gegenüber Qwen3 0,6B (6,5). ➤ Alle vier Modelle verwenden 230-390M Ausgabetokens, um den Intelligence Index auszuführen, was deutlich mehr ist als bei den größeren Qwen3.5-Geschwistern und den Qwen3-Vorgängermodellen. Qwen3.5 2B verwendete ~390M Ausgabetokens, 4B verwendete ~240M, 0,8B verwendete ~230M, und 9B verwendete ~260M. Zum Vergleich: Das viel größere Qwen3.5 27B verwendete 98M und das 397B-Flaggschiff verwendete 86M. Diese Token-Zahlen übertreffen auch die meisten Frontier-Modelle: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) und GLM-5 Reasoning (109M). ➤ AA-Omniscience ist eine relative Schwäche, mit Halluzinationsraten von 80-82% für das 4B- und 9B-Modell. Qwen3.5 4B erzielt -57 bei AA-Omniscience mit einer Halluzinationsrate von 80% und einer Genauigkeit von 12,8%. Qwen3.5 9B erzielt -56 mit 82% Halluzination und 14,7% Genauigkeit. Diese sind geringfügig besser als ihre Qwen3-Vorgänger (Qwen3 4B 2507: -61, 84% Halluzination, 12,7% Genauigkeit), wobei die Verbesserung hauptsächlich durch niedrigere Halluzinationsraten und nicht durch höhere Genauigkeit bedingt ist. ➤ Die Qwen3.5-Modelle unter 10B kombinieren hohe Intelligenz mit nativer Vision in einem zuvor unerreichten Maßstab. Bei MMMU-Pro (multimodales Reasoning) erzielt Qwen3.5 9B 69,2% und 4B 65,4%, vor Qwen3 VL 8B (56,6%), Qwen3 VL 4B (52,0%) und Ministral 3 8B (46,0%). Das Qwen3.5 0,8B erzielt 25,8%, was für ein Modell unter 1B bemerkenswert ist. Weitere Informationen: ➤ Kontextfenster: 262K Tokens ➤ Lizenz: Apache 2.0 ➤ Quantisierung: Native Gewichte sind BF16. Alibaba hat keine First-Party GPTQ-Int4-Quantisierungen für diese kleinen Modelle veröffentlicht, obwohl sie dies für die größeren Modelle der Qwen3.5-Familie, die früher veröffentlicht wurden (27B, 35B-A3B, 122B-A10B, 397B-A17B), getan haben. Bei 4-Bit-Quantisierung sind alle vier Modelle auf Consumer-Hardware zugänglich. ➤ Verfügbarkeit: Zum Zeitpunkt der Veröffentlichung gibt es keine First-Party- oder Third-Party-serverlosen APIs, die diese Modelle hosten.

Alibaba hat seine Qwen3.5-Modellfamilie mit 3 neuen Modellen erweitert - das 27B-Modell sticht hervor und erzielt 42 im Artificial Analysis Intelligence Index und erreicht die offenen Gewichtungsmodelle, die 8-25x so groß sind. @Alibaba_Qwen hat die Qwen3.5-Familie mit drei neuen Modellen neben dem 397B-Flaggschiff, das Anfang dieses Monats veröffentlicht wurde, erweitert: das Qwen3.5 27B (Dense, erzielt 42 im Intelligence Index), Qwen3.5 122B A10B (MoE, 42) und Qwen3.5 35B A3B (MoE, 37). Die beiden MoE (Mixture-of-Experts)-Modelle aktivieren nur einen Bruchteil der gesamten Parameter pro Vorwärtsdurchlauf (10B von 122B und ~3B von 35B). Der Intelligence Index ist unser Synthesemaß, das 10 Bewertungen umfasst, die allgemeines Denken, agentische Aufgaben, Programmierung und wissenschaftliches Denken abdecken. Alle Modelle sind unter der Apache 2.0-Lizenz lizenziert, unterstützen nativ 262K Kontext und kehren zur einheitlichen Denk-/Nicht-Denk-Hybridarchitektur des ursprünglichen Qwen3 zurück, nachdem Alibaba mit den Qwen3 2507-Updates zu separaten Instruct- und Reasoning-Checkpoints gewechselt ist. Wichtige Benchmark-Ergebnisse für die Denkvarianten: ➤ Qwen3.5 27B erzielt 42 im Intelligence Index und ist das intelligenteste Modell unter 230B. Das nächstgelegene Modell ähnlicher Größe ist GLM-4.7-Flash (31B insgesamt, 3B aktiv), das 30 erzielt. Offene Gewichtungsmodelle mit vergleichbarer Intelligenz sind 8-25x größer in Bezug auf die Gesamtparameter: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) und GLM-4.7 (357B, 42). In FP8-Präzision benötigt es ~27GB, um die Modellgewichte zu speichern, während Sie bei 4-Bit-Quantisierung Hardware in Laptop-Qualität mit 16GB+ RAM verwenden können. ➤ Qwen3.5 27B erzielt 1205 im GDPval-AA (Agentic Real-World Work Tasks) und platziert sich neben größeren Modellen. Zum Kontext: MiniMax-M2.5 erzielt 1206, GLM-4.7 (Reasoning) erzielt 1200 und DeepSeek V3.2 (Reasoning) erzielt 1194. Dies ist besonders bemerkenswert für ein Modell mit 27B Parametern und deutet auf starke agentische Fähigkeiten für seine Größe hin. GDPval-AA testet Modelle in realen Aufgaben über 44 Berufe und 9 Hauptindustrien. ➤ AA-Omniscience bleibt eine relative Schwäche in der Qwen3.5-Familie, die hauptsächlich durch geringere Genauigkeit und nicht durch die Halluzinationsrate bedingt ist. Qwen3.5 27B erzielt -42 in AA-Omniscience, vergleichbar mit MiniMax-M2.5 (-40), aber hinter DeepSeek V3.2 (-21) und GLM-4.7 (-35). Obwohl die Halluzinationsrate von Qwen3.5 27B (80%) niedriger ist als die der Mitbewerber (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), ist die Genauigkeit mit 21% im Vergleich zu 34% für DeepSeek V3.2 und 29% für GLM-4.7 ebenfalls niedriger. Dies ist wahrscheinlich eine Folge der Modellgröße - wir haben allgemein beobachtet, dass Modelle mit mehr Gesamtparametern in der Genauigkeit bei AA-Omniscience besser abschneiden, da das breitere Wissen von größeren Parameterzahlen profitiert. ➤ Qwen3.5 27B ist gleich intelligent wie Qwen3.5 122B A10B. Das 122B A10B ist ein Mixture-of-Experts-Modell, das nur 10B seiner insgesamt 122B Parametern pro Vorwärtsdurchlauf aktiviert. Das 27B-Modell führt in GDPval-AA (1205 Elo vs 1145 Elo) und leicht bei TerminalBench (+1,5 p.p.), während das 122B-Modell bei SciCode (+2,5 p.p.), HLE (+1,2 p.p.) führt und eine niedrigere Halluzinationsrate hat (Omniscience -40 vs -42). ➤ Qwen3.5 35B A3B (Reasoning, 37) ist das intelligenteste Modell mit ~3B aktiven Parametern, 7 Punkte vor GLM-4.7-Flash (30). Andere Modelle in dieser ~3B aktiven Kategorie sind Qwen3 Coder Next (80B insgesamt, 28), Qwen3 Next 80B A3B (27) und NVIDIA Nemotron 3 Nano 30B A3B (24). ➤ Qwen3.5 27B verwendete 98M Ausgabetoken, um den Intelligence Index auszuführen, was ~$299 über die Alibaba Cloud API kostet. Dies ist im Vergleich zu Modellen mit ähnlicher Intelligenz bemerkenswert hoch: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) und sogar das größere Qwen3.5 397B (86M). Weitere Informationen: ➤ Kontextfenster: 262K Tokens (erweiterbar auf 1M über YaRN) ➤ Lizenz: Apache 2.0 ➤ API-Preise (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 pro 1M Eingabe-/Ausgabetokens

Top

Ranking

Favoriten