Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Artificial Analysis

Niezależna analiza modeli AI i dostawców usług hostingowych - wybierz najlepszego dostawcę modelu i API dla swojego przypadku użycia

Alibaba wydał 4 nowe modele Qwen3.5 od 0.8B do 9B. Model 9B (Rozumowanie, 32 w Indeksie Inteligencji) jest najbardziej inteligentnym modelem poniżej 10B parametrów, a 4B (Rozumowanie, 27) jest najbardziej inteligentnym modelem poniżej 5B, ale oba używają ponad 200M tokenów wyjściowych do uruchomienia Indeksu Inteligencji @Alibaba_Qwen rozszerzył rodzinę Qwen3.5 o cztery mniejsze gęste modele: 9B (Rozumowanie, 32 w Indeksie Inteligencji), 4B (Rozumowanie, 27), 2B (Rozumowanie, 16) i 0.8B (Rozumowanie, 9). Te modele uzupełniają większe modele 397B, 27B, 122B A10B i 35B A3B, które zostały wydane wcześniej w tym miesiącu. Wszystkie modele są licencjonowane na podstawie Apache 2.0, wspierają 262K kontekst, zawierają natywne wsparcie wizji i używają tego samego zjednoczonego podejścia hybrydowego myślenia/niedomyślenia jak reszta rodziny Qwen3.5 Kluczowe wyniki benchmarków dla wariantów rozumowania: ➤ Modele 9B i 4B są najbardziej inteligentnymi modelami w swoich klasach rozmiarowych, wyprzedzając wszystkie inne modele poniżej 10B parametrów. Qwen3.5 9B (32) zdobywa mniej więcej podwójnie więcej punktów niż najbliższe modele poniżej 10B: Falcon-H1R-7B (16) i NVIDIA Nemotron Nano 9B V2 (Rozumowanie, 15). Qwen3.5 4B (27) zdobywa więcej punktów niż wszystkie te modele, mimo że ma mniej więcej połowę parametrów. Wszystkie cztery małe modele Qwen3.5 znajdują się na granicy Pareto w wykresie Inteligencja vs. Całkowita liczba parametrów ➤ Generacja Qwen3.5 reprezentuje znaczący wzrost inteligencji w porównaniu do Qwen3 we wszystkich rozmiarach modeli poniżej 10B, z większymi zyskami przy wyższej całkowitej liczbie parametrów. Porównując warianty rozumowania: Qwen3.5 9B (32) jest o 15 punktów lepszy od Qwen3 VL 8B (17), 4B (27) zyskuje 9 punktów w porównaniu do Qwen3 4B 2507 (18), 2B (16) jest o 3 punkty lepszy od Qwen3 1.7B (szacowane 13), a 0.8B (9) zyskuje 2.5 punktu w porównaniu do Qwen3 0.6B (6.5). ➤ Wszystkie cztery modele używają 230-390M tokenów wyjściowych do uruchomienia Indeksu Inteligencji, co jest znacznie więcej niż oba większe rodzeństwa Qwen3.5 i poprzednicy Qwen3. Qwen3.5 2B użył ~390M tokenów wyjściowych, 4B użył ~240M, 0.8B użył ~230M, a 9B użył ~260M. Dla kontekstu, znacznie większy Qwen3.5 27B użył 98M, a flagowy 397B użył 86M. Te liczby tokenów przewyższają również większość modeli granicznych: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) i GLM-5 Rozumowanie (109M) ➤ AA-Omniscience jest względną słabością, z wskaźnikami halucynacji wynoszącymi 80-82% dla 4B i 9B. Qwen3.5 4B zdobywa -57 w AA-Omniscience z wskaźnikiem halucynacji wynoszącym 80% i dokładnością 12.8%. Qwen3.5 9B zdobywa -56 z 82% halucynacji i 14.7% dokładności. To są marginalnie lepsze wyniki niż ich poprzednicy Qwen3 (Qwen3 4B 2507: -61, 84% halucynacji, 12.7% dokładności), przy czym poprawa wynika głównie z niższych wskaźników halucynacji, a nie wyższej dokładności. ➤ Modele Qwen3.5 poniżej 10B łączą wysoką inteligencję z natywną wizją w skali wcześniej niedostępnej. Na MMMU-Pro (rozumowanie multimodalne), Qwen3.5 9B zdobywa 69.2%, a 4B zdobywa 65.4%, wyprzedzając Qwen3 VL 8B (56.6%), Qwen3 VL 4B (52.0%) i Ministral 3 8B (46.0%). Qwen3.5 0.8B zdobywa 25.8%, co jest godne uwagi dla modelu poniżej 1B Inne informacje: ➤ Okno kontekstowe: 262K tokenów ➤ Licencja: Apache 2.0 ➤ Kwantyzacja: Natywne wagi to BF16. Alibaba nie wydał pierwszych kwantyzacji GPTQ-Int4 dla tych małych modeli, chociaż zrobił to dla większych modeli w rodzinie Qwen3.5 wydanych wcześniej (27B, 35B-A3B, 122B-A10B, 397B-A17B). W kwantyzacji 4-bitowej wszystkie cztery modele są dostępne na sprzęcie konsumenckim ➤ Dostępność: W momencie publikacji nie ma pierwszych ani trzecich stron serwerless API hostujących te modele.

Alibaba rozszerzył swoją rodzinę modeli Qwen3.5 o 3 nowe modele - model 27B wyróżnia się, zdobywając 42 punkty w Indeksie Analizy Sztucznej Inteligencji i dorównując modelom o otwartych wagach, które są 8-25 razy większe @Alibaba_Qwen rozszerzył rodzinę Qwen3.5 o trzy nowe modele obok flagowego modelu 397B wydanego na początku tego miesiąca: Qwen3.5 27B (gęsty, zdobywający 42 punkty w Indeksie Inteligencji), Qwen3.5 122B A10B (MoE, 42) oraz Qwen3.5 35B A3B (MoE, 37). Dwa modele MoE (Mixture-of-Experts) aktywują tylko część całkowitych parametrów na jeden przebieg (10B z 122B i ~3B z 35B odpowiednio). Indeks Inteligencji to nasza metryka syntezująca, obejmująca 10 ocen dotyczących ogólnego rozumowania, zadań agentowych, kodowania i rozumowania naukowego. Wszystkie modele są licencjonowane na podstawie Apache 2.0, natywnie obsługują 262K kontekstu i wracają do zjednoczonej architektury myślenia/niemyslenia hybrydowego z oryginalnego Qwen3, po tym jak Alibaba przeszedł do oddzielnych punktów kontrolnych Instruct i Reasoning z aktualizacjami Qwen3 2507. Kluczowe wyniki benchmarków dla wariantów rozumowania: ➤ Qwen3.5 27B zdobywa 42 punkty w Indeksie Inteligencji i jest najinteligentniejszym modelem poniżej 230B. Najbliższy model o podobnej wielkości to GLM-4.7-Flash (31B całkowite, 3B aktywne), który zdobywa 30 punktów. Modele o otwartych wagach o równoważnej inteligencji są 8-25 razy większe pod względem całkowitych parametrów: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) i GLM-4.7 (357B, 42). W precyzji FP8 zajmuje ~27GB, aby przechować wagi modelu, podczas gdy w kwantyzacji 4-bitowej można używać sprzętu o jakości laptopa z 16GB+ RAM ➤ Qwen3.5 27B zdobywa 1205 punktów w GDPval-AA (Agentowe Zrealizowane Prace w Świecie), co stawia go obok większych modeli. Dla kontekstu, MiniMax-M2.5 zdobywa 1206, GLM-4.7 (Rozumowanie) zdobywa 1200, a DeepSeek V3.2 (Rozumowanie) zdobywa 1194. To jest szczególnie godne uwagi dla modelu o 27B parametrach i sugeruje silne zdolności agentowe jak na jego rozmiar. Testy GDPval-AA oceniają modele w rzeczywistych zadaniach w 44 zawodach i 9 głównych branżach ➤ AA-Omniscience pozostaje względną słabością w całej rodzinie Qwen3.5, napędzaną głównie przez niższą dokładność, a nie wskaźnik halucynacji. Qwen3.5 27B zdobywa -42 w AA-Omniscience, porównywalnie z MiniMax-M2.5 (-40), ale za DeepSeek V3.2 (-21) i GLM-4.7 (-35). Chociaż wskaźnik halucynacji Qwen3.5 27B (80%) jest niższy niż u rówieśników (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), jego dokładność jest również niższa na poziomie 21% w porównaniu do 34% dla DeepSeek V3.2 i 29% dla GLM-4.7. To prawdopodobnie jest konsekwencją rozmiaru modelu - ogólnie zaobserwowaliśmy, że modele z większą liczbą całkowitych parametrów lepiej radzą sobie z dokładnością w AA-Omniscience, ponieważ szersze przypomnienie wiedzy korzysta z większej liczby parametrów ➤ Qwen3.5 27B jest równoważnie inteligentny jak Qwen3.5 122B A10B. 122B A10B to model Mixture-of-Experts, który aktywuje tylko 10B ze swoich 122B całkowitych parametrów na jeden przebieg. Model 27B prowadzi w GDPval-AA (1205 Elo vs 1145 Elo) i nieznacznie w TerminalBench (+1.5 p.p.), podczas gdy model 122B prowadzi w SciCode (+2.5 p.p.), HLE (+1.2 p.p.) i ma niższy wskaźnik halucynacji (Omniscience -40 vs -42) ➤ Qwen3.5 35B A3B (Rozumowanie, 37) jest najinteligentniejszym modelem z ~3B aktywnych parametrów, 7 punktów przed GLM-4.7-Flash (30). Inne modele w tej kategorii ~3B aktywnych to Qwen3 Coder Next (80B całkowite, 28), Qwen3 Next 80B A3B (27) oraz NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ Qwen3.5 27B użył 98M tokenów wyjściowych do uruchomienia Indeksu Inteligencji, kosztując ~$299 za pośrednictwem API Alibaba Cloud. To jest zauważalnie wysokie zużycie tokenów w porównaniu do modeli o podobnej inteligencji: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M), a nawet większy Qwen3.5 397B (86M). Inne informacje: ➤ Okno kontekstowe: 262K tokenów (rozszerzalne do 1M za pomocą YaRN) ➤ Licencja: Apache 2.0 ➤ Ceny API (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 za 1M tokenów wejściowych/wyjściowych

Najlepsze

Ranking

Ulubione