DApp Mağazası | Etkinlikler ve Oyunlar için Web3 Merkezi

Trend Olan Konular

Artificial Analysis

Yapay zeka modellerinin ve barındırma sağlayıcılarının bağımsız analizi - kullanım durumunuz için en iyi modeli ve API sağlayıcısını seçin

Alibaba, 0.8B'den 9B'ye kadar 4 yeni Qwen3.5 modeli piyasaya sürdü. 9B (Akıl yürütme, Zeka Endeksi'nde 32) 10B parametreleri altında en zeki model, 4B (Akıl yürütme, 27) ise 5B altında en zeki modeldir, ancak her ikisi de Zeka İndeksini çalıştırmak için 200M+ çıkış tokenı kullanır @Alibaba_Qwen, Qwen3.5 ailesini dört daha küçük yoğun modelle genişletmiştir: 9B (Akıl yürütme, Zeka Indeksinde 32), 4B (Akıl yürütme, 27), 2B (Akıl yürütme, 16) ve 0.8B (Akıl yürütme, 9). Bunlar, bu ayın başında piyasaya sürülen daha büyük 397B, 27B, 122B A10B ve 35B A3B modellerini tamamlayacak. Tüm modeller Apache 2.0 lisanslıdır, 262K bağlamını destekler, yerel görme desteği içerir ve Qwen3.5 ailesinin geri kalanı gibi birleşik düşünme/düşünme dışı hibrit yaklaşımı kullanır Akıl yürütme varyantları için temel kıyaslama sonuçları: ➤ 9B ve 4B, kendi boyut sınıflarında en akıllı modellerdir ve 10B parametreleri altındaki diğer tüm modellerin önündedir. Qwen3.5 9B (32), 10B'nin altındaki en yakın modellerin yaklaşık iki katı puan alıyor: Falcon-H1R-7B (16) ve NVIDIA Nemotron Nano 9B V2 (Reasoning, 15). Qwen3.5 4B (27), parametrelerin yaklaşık yarısına sahip olmasına rağmen bunların hepsini geride bırakıyor. Dört küçük Qwen3.5 modelinin tamamı, Zeka vs. Toplam Parametreler tablosunda Pareto sınırında yer alıyor ➤ Qwen3.5 nesli, tüm 10B altındaki model boyutlarında Qwen3'e göre maddi zeka artışını temsil eder ve daha yüksek toplam parametre sayılarında daha büyük kazançlar elde eder. Akıl yürütme varyantlarını karşılaştırırsak: Qwen3.5 9B (32), Qwen3 VL 8B'nin (17) 15 puan önünde, 4B (27) Qwen3 4B 2507 (18) üzerinde 9 puan kazanır, 2B (16) Qwen3 1.7B'nin (tahmini 13) 3 puan önündedir ve 0.8B (9) Qwen3 0.6B (6.5) üzerinde 2.5 puan kazanır. ➤ Dört modelin tamamı Intelligence Index'i çalıştırmak için 230-390M çıkış tokenları kullanır; bu, hem büyük Qwen3.5 kardeşlerinden hem de Qwen3 seleflerinden önemli ölçüde fazladır. Qwen3.5 2B ~390M çıkış jetonları kullandı, 4B ~240M, 0.8B ~230M ve 9B ~260M kullandı. Bağlam için, çok daha büyük Qwen3.5 27B 98M kullanmış, 397B amiral gemisi ise 86M kullanmıştır. Bu token sayıları da çoğu öncü modeli aşıyor: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) ve GLM-5 Reasoning (109M) ➤ AA-Her Şeyi Bilme görece bir zayıflıktır; 4B ve 9B için halüsinasyon oranları %80-82 arasındadır. Qwen3.5 4B puanı AA-Omniscience'da -57 puan aldı, halüsinasyon oranı %80 ve doğruluk oranı %12,8. Qwen3.5 9B -56 puan, %82 halüsinasyon ve %14.7 isabet puanı aldı. Bunlar, Qwen3 seleflerinden (Qwen3 4B 2507: -61, %84 halüsinasyon, %12,7 doğruluk) biraz daha iyidir ve bu gelişme esas olarak daha yüksek doğruluk yerine daha düşük halüsinasyon oranlarından kaynaklanmaktadır. ➤ Qwen3.5 sub-10B modelleri, daha önce bulunamayan ölçekte yüksek zeka ile yerel görüşü birleştirir. MMMU-Pro (multimodal akıl yürütme) alanında, Qwen3.5 9B %69,2, 4B %65,4 puan alarak Qwen3 VL 8B (%56,6), Qwen3 VL 4B (%52,0) ve Ministral 3 8B (%46,0) önünde yer alır. Qwen3.5 0.8B %25.8 puan alıyor ki bu, 1B'nin altında bir model için dikkat çekicidir Diğer bilgiler: ➤ Bağlam penceresi: 262K token ➤ Lisans: Apache 2.0 ➤ Kuantizasyon: Yerel ağırlıklar BF16'dır. Alibaba, bu küçük modeller için birinci parti GPTQ-Int4 kuantizasyonlarını piyasaya sürmedi, ancak daha önce piyasaya sürülen Qwen3.5 ailesindeki daha büyük modeller için (27B, 35B-A3B, 122B-A10B, 397B-A17B) bu kuantizasyonlar yayımlamıştır. 4-bit quantizasyonda dört modelin tamamı tüketici donanımında erişilebilir ➤ Erişilebilirlik: Yayın sırasında bu modelleri barındıran birinci veya üçüncü taraf sunucusuz API'ler yoktur

Alibaba, Qwen3.5 model ailesini 3 yeni modelle genişletti - 27B modeli öne çıkıyor; Yapay Analiz Zeka Endeksi'nde 42 puan aldı ve açık ağırlıklı modelleri 8-25 kat büyüklüğünde eşleştiriyor @Alibaba_Qwen, bu ayın başında piyasaya sürülen 397B amiral gemisi ile birlikte üç yeni model ile Qwen3.5 ailesini genişletti: Qwen3.5 27B (Dense, Intelligence Index'de 42 puan), Qwen3.5 122B A10B (MoE, 42) ve Qwen3.5 35B A3B (MoE, 37). İki MoE (Uzmanların Karışımı) modeli, ileri geçişte toplam parametrelerin sadece bir kısmını aktive eder (sırasıyla 122B'nin 10B ve 35B'nin ~3B'si). Zeka İndeksi, genel akıl yürütme, ajanik görevler, kodlama ve bilimsel akıl yürütmeyi kapsayan 10 değerlendirmeyi içeren sentez metriklerimizdir. Tüm modeller Apache 2.0 lisanslıdır, 262K bağlamını yerel olarak destekler ve Alibaba'nın Qwen3 2507 güncellemeleriyle Talimat ve Akıl yürütme kontrol noktalarını ayırmasına geçişinden sonra orijinal Qwen3'ten birleşik düşünme/düşünme dışı hibrit mimarisine geri dönüyor. Akıl yürütme varyantları için temel kıyaslama sonuçları: ➤ Qwen3.5 27B, Zeka Endeksi'nde 42 puan alıyor ve 230B altındaki en zeki modeldir. Benzer boyuttaki en yakın model GLM-4.7-Flash (toplamda 31B, 3B aktif) ve 30 puan alıyor. Eşdeğer zekaya sahip açık ağırlıklı modeller toplam parametreler açısından 8-25 kat daha büyüktür: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) ve GLM-4.7 (357B, 42). FP8 hassasiyetinde model ağırlıklarını depolamak ~27GB gerektirirken, 4-bit quantizasyonda 16GB+ RAM ile dizüstü kalitede donanım kullanılabilir ➤ Qwen3.5 27B, GDPval-AA (Ajanik Gerçek Dünya İş Görevleri) üzerinden 1205 puan alarak daha büyük modellerin yanına koyulmuştur. Bağlam için, MiniMax-M2.5 1206, GLM-4.7 (Akıl yürütme) 1200 ve DeepSeek V3.2 (Akıl yürütme) 1194 puan alıyor. Bu özellikle 27B parametre modeli için dikkat çekicidir ve boyutuna göre güçlü bir ajan yeteneği olduğunu gösterir. GDPval-AA, 44 meslek ve 9 büyük sektörde gerçek dünya görevleri üzerinde modelleri test ediyor ➤ AA-Her Şeyi Bilme, Qwen3.5 ailesinde görece zayıf bir zayıflık olarak kalıyor; bu durum esas olarak halüsinasyon oranından ziyade düşük doğruluktan kaynaklanıyor. Qwen3.5 27B, AA-Omniscience'da -42 puan alıyor, MiniMax-M2.5 (-40) ile karşılaştırılabilir ama DeepSeek V3.2 (-21) ve GLM-4.7 (-35) geride. Qwen3.5 27B'nin halüsinasyon oranı (%80) akranlarından (GLM-4.7 %90, MiniMax %89, DeepSeek %82) daha düşük olsa da, doğruluğu %21 ile daha düşük, DeepSeek V3.2 için %34 ve GLM-4.7 için %29. Bu muhtemelen model boyutunun bir sonucudur - genel olarak AA-Omniscience'da daha fazla toplam parametreye sahip modellerin doğruluk açısından daha iyi performans gösterdiğini gözlemledik; çünkü daha geniş bilgi hatırlaması daha büyük parametre sayılarından fayda sağlar ➤ Qwen3.5 27B, Qwen3.5 122B A10B ile eşdeğer zekiliktedir. 122B A10B, her ileri geçişte toplam 122B parametrelerinin sadece 10B'sini etkinleştiren Uzmanlar Karışıklığı modelidir. 27B modeli GDPval-AA'da (1205 Elo vs 1145 Elo) ve TerminalBench'te biraz liderdir (+1.5 p.p.), 122B modeli ise SciCode (+2.5 p.p.), HLE (+1.2 p.p.) ile önde ve daha düşük halüsinasyon oranına sahip (Omniscience -40 vs -42) ➤ Qwen3.5 35B A3B (Reasoning, 37) ~3B aktif parametrelere sahip en akıllı modeldir, GLM-4.7-Flash (30) üzerinden 7 puan öndedir. Bu ~3B aktif kategorideki diğer modeller arasında Qwen3 Coder Next (toplam 80B, 28), Qwen3 Next 80B A3B (27) ve NVIDIA Nemotron 3 Nano 30B A3B (24) bulunmaktadır ➤ Qwen3.5 27B, Alibaba Cloud API üzerinden ~$299 maliyetli Intelligence Index'i çalıştırmak için 98M çıkış tokenı kullandı. Bu, benzer zekaya sahip modellere kıyasla belirgin şekilde yüksek token kullanımıdır: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) ve hatta daha büyük Qwen3.5 397B (86M). Diğer bilgiler: ➤ Bağlam penceresi: 262K token (YaRN üzerinden 1M'ye genişletilebilir) ➤ Lisans: Apache 2.0 ➤ API fiyatlandırması (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 her 1M giriş/çıkış tokenı başına

En İyiler

Sıralama

Takip Listesi