متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

Artificial Analysis

تحليل مستقل لنماذج الذكاء الاصطناعي وموفري الاستضافة - اختر أفضل نموذج ومزود واجهة برمجة تطبيقات لحالة الاستخدام الخاصة بك

أصدرت علي بابا 4 طرازات جديدة من Qwen3.5 من 0.8B إلى 9B. النموذج 9B (المنطق، 32 في مؤشر الذكاء) هو النموذج الأكثر ذكاء تحت 10B معلمات، و4B (التفكير، 27) هو الأكثر ذكاء تحت 5B، لكن كلاهما يستخدم رموز إخراج 200M+ لتشغيل مؤشر الذكاء @Alibaba_Qwen وسعت عائلة Qwen3.5 بأربعة نماذج أصغر كثافة كثافة: 9B (التفكير، 32 في مؤشر الذكاء)، 4B (التفكير، 27)، 2B (التفكير، 16)، و0.8B (التفكير، 9). تكمل هذه الطرازات الأكبر 397B و27B و122B A10B و35B A3B التي صدرت في وقت سابق من هذا الشهر. جميع النماذج مرخصة بنظام Apache 2.0، وتدعم سياق 262K، وتشمل دعم الرؤية الأصلية، وتستخدم نفس النهج الهجين الموحد بين التفكير وعدم التفكير كما في بقية عائلة Qwen3.5 نتائج المقارنة الرئيسية لمتغيرات المنطق: ➤ النماذج 9B و4B هما الأكثر ذكاء في فئات الحجم الخاصة بهما، متقدمين على جميع النماذج الأخرى تحت معايير 10B. Qwen3.5 9B (32) يحقق تقريبا ضعف النماذج الأقرب التالية تحت 10B: فالكون-H1R-7B (16) وNVIDIA Nemotron Nano 9B V2 (Reasoning، 15). Qwen3.5 4B (27) يتفوق على جميع هذه النقاط رغم أن لديه حوالي نصف المعايير. جميع نماذج Qwen3.5 الصغيرة الأربعة تقع على حدود باريتو في مخطط الذكاء مقابل المعلمات الكلية ➤ يمثل جيل Qwen3.5 ارتفاعا في الذكاء المادي مقارنة ب Qwen3 عبر جميع أحجام النماذج تحت 10B، مع مكاسب أكبر عند أعداد معلمات إجمالية أعلى. مقارنة الأنواع المنطقية: Qwen3.5 9B (32) يتقدم ب 15 نقطة على Qwen3 VL 8B (17)، و4B (27) يكسب 9 نقاط على Qwen3 4B 2507 (18)، و2B (16) يتقدم ب 3 نقاط على Qwen3 1.7B (تقدير 13)، و0.8B (9) يكسب 2.5 نقطة عن Qwen3 0.6B (6.5). ➤ جميع النماذج الأربعة تستخدم رموز إخراج تتراوح بين 230-390 مليون لتشغيل مؤشر الذكاء، وهو أكثر بكثير من كل من الأشقاء الأكبر في Qwen3.5 وسابقي Qwen3. استخدم Qwen3.5 2B رموز إخراج ~390M، و4B استخدم ~240M، و0.8B استخدم ~230M، و9B استخدم ~260M. للسياق، استخدم القاطرة الأكبر بكثير Qwen3.5 27B 98M، بينما استخدم الرائد 397B 86M. تتجاوز هذه الرموز أيضا معظم الطرازات الحدودية: Gemini 3.1 Pro Preview (57M)، GPT-5.2 (xhigh، 130M)، وGLM-5 Reasoning (109M) ➤ AA-المعرفة المطلقة هي نقطة ضعف نسبية، حيث تتراوح معدلات الهلوسة بين 80-82٪ للفئتين 4B و9B. Qwen3.5 4B يحصل على درجة -57 في AA-Omniscience مع معدل هلوسة 80٪ ودقة 12.8٪. Qwen3.5 9B يحصل على -56 مع 82٪ هلوسة ودقة 14.7٪. هذه أفضل قليلا من أسلافها في Qwen3 (Qwen3 4B 2507: -61، 84٪ هلوسة، 12.7٪ دقة)، مع تحسن يعود بشكل أساسي إلى انخفاض معدلات الهلوسة بدلا من الدقة الأعلى. ➤ نماذج Qwen3.5 تحت 10B تجمع بين الذكاء العالي والرؤية الأصلية على نطاق لم يكن متاحا من قبل. في MMMU-Pro (الاستدلال متعدد الوسائط)، حصلت Qwen3.5 9B على 69.2٪ و4B 65.4٪، متقدمة على Qwen3 VL 8B (56.6٪)، Qwen3 VL 4B (52.0٪)، وMinistral 3 8B (46.0٪). يحقق Qwen3.5 0.8B نسبة 25.8٪، وهو أمر ملحوظ لنموذج تحت 1B معلومات أخرى: ➤ نافذة السياق: 262 ألف رمز ➤ الرخصة: Apache 2.0 ➤ التكميم: الأوزان الأصلية هي BF16. لم تصدر علي بابا تقطيعات GPTQ-Int4 من الطرف الأول لهذه النماذج الصغيرة، رغم أنها أصدرت للنماذج الأكبر في عائلة Qwen3.5 التي صدرت سابقا (27B، 35B-A3B، 122B-A10B، 397B-A17B). في التكميم 4-بت، جميع النماذج الأربعة متاحة على أجهزة المستهلك ➤ التوفر: عند وقت النشر، لا توجد واجهات برمجة تطبيقات من الطرف الأول أو خارجية بدون خادم تستضيف هذه النماذج

وسعت علي بابا عائلة طرازات Qwen3.5 بثلاثة نماذج جديدة - حيث يميز طراز 27B حيث حصل على تقييم 42 في مؤشر الذكاء التحليلي الاصطناعي، ويتناسب مع نماذج الأوزان المفتوحة التي تزيد حجمه ب 8-25 ضعف حجمه وسعت @Alibaba_Qwen عائلة Qwen3.5 بثلاثة طرازات جديدة إلى جانب النسخة الرائدة 397B التي صدرت في وقت سابق من هذا الشهر: Qwen3.5 27B (كثيف، وحصل على تقييم 42 في مؤشر الذكاء)، Qwen3.5 122B A10B (MoE، 42)، وQwen3.5 35B A3B (MoE، 37). ينشط نموذجا MoE (خليط الخبراء) جزءا فقط من إجمالي المعاملات في كل تمريرة أمامية (10B من 122B و~3B من 35B على التوالي). مؤشر الذكاء هو مقياس التوليف لدينا الذي يجمع بين 10 تقييمات تغطي التفكير العام، والمهام الوكالية، والترميز، والتفكير العلمي. جميع النماذج مرخصة من Apache 2.0، وتدعم بشكل أصلي سياق 262K، وتعود إلى البنية الهجينة الموحدة للتفكير/عدم التفكير من Qwen3 الأصلية، بعد أن انتقلت علي بابا إلى نقاط تفتيش منفصلة للتوجيه والاستدلال مع تحديثات Qwen3 2507. نتائج المقارنة الرئيسية لمتغيرات المنطق: ➤ Qwen3.5 27B يحصل على تقييم 42 في مؤشر الذكاء وهو النموذج الأكثر ذكاء تحت 230B. أقرب نموذج بحجم مشابه هو GLM-4.7-Flash (إجمالي 31 ألباب، 3 مليار نشط) والذي حصل على 30 نقطة. نماذج الأوزان المفتوحة ذات الذكاء المكافئ أكبر ب 8-25 مرة من حيث المعلمات الإجمالية: MiniMax-M2.5 (230B، 42)، DeepSeek V3.2 (685B، 42)، وGLM-4.7 (357B، 42). في دقة FP8 يحتاج تخزين أوزان النماذج ~27 جيجابايت، بينما في التكميم 4-بت يمكنك استخدام أجهزة بجودة لابتوب مع ذاكرة RAM تبلغ 16GB+ ➤ Qwen3.5 27B يحصل على تقييم 1205 في GDPval-AA (مهام العمل الواقعية الوكائلية)، مما يضعه إلى جانب النماذج الأكبر. للسياق، MiniMax-M2.5 يحصل على 1206، وGLM-4.7 (Reasoning) 1200، وDeepSeek V3.2 (Reasoning) 1194. وهذا ملحوظ بشكل خاص لنموذج معامل 27B ويشير إلى قدرة وكالية قوية بالنسبة لحجمه. يختبر GDPval-AA نماذج على المهام الواقعية عبر 44 مهنة و9 صناعات رئيسية ➤ لا تزال AA-المعرفة الشاملة نقطة ضعف نسبية عبر عائلة Qwen3.5، مدفوعة أساسا بانخفاض الدقة أكثر من معدل الهلوسات. Qwen3.5 27B يحصل على تقييم -42 في AA-Omniscience، وهو تقييم مشابه ل MiniMax-M2.5 (-40) لكنه خلف DeepSeek V3.2 (-21) وGLM-4.7 (-35). على الرغم من أن معدل الهلوسة لدى Qwen3.5 27B (80٪) أقل من نظيراتها (GLM-4.7 90٪، MiniMax 89٪، DeepSeek 82٪)، إلا أن دقته أقل أيضا عند 21٪ مقابل 34٪ ل DeepSeek V3.2 و29٪ ل GLM-4.7. من المحتمل أن يكون هذا نتيجة لحجم النموذج - فقد لاحظنا عموما أن النماذج التي تحتوي على معلمات إجمالية أكثر تؤدي أداء أفضل في الدقة في AA-Omniscience، حيث تستفيد استرجاع المعرفة الأوسع من عدد أكبر من المعلمات ➤ Qwen3.5 27B يعادل الذكاء Qwen3.5 122B A10B. نموذج 122B A10B هو نموذج مزيج من الخبراء يفعل فقط 10B من مجموع 122B معاملاته في كل تمريرة أمامية. نموذج 27B يتصدر في GDPval-AA (1205 Elo مقابل 1145 Elo) وقليلا على TerminalBench (+1.5 p.p.)، بينما نموذج 122B يتصدر SciCode (+2.5 p.p.)، HLE (+1.2p.p.)، ومعدل هلوسة أقل (Omniscience -40 مقابل -42) ➤ Qwen3.5 35B A3B (المنطق، 37) هو النموذج الأكثر ذكاء مع ~3B معلمات نشطة، متقدما ب 7 نقاط على GLM-4.7-Flash (30). تشمل النماذج الأخرى في هذه الفئة النشطة ~3B كوين3 كودر نيكست (إجمالي 80 ب)، كوين3 نكست 80B A3B (27)، وNVIDIA Nemotron 3 Nano 30B A3B (24) ➤ استخدم Qwen3.5 27B 98 مليون رمز إخراج لتشغيل مؤشر الذكاء، بتكلفة ~$299 عبر واجهة Alibaba Cloud API. وهذا يعد استخداما عاليا للرموز مقارنة بالنماذج ذات الذكاء المماثل: MiniMax-M2.5 (56M)، DeepSeek V3.2 (61M)، وحتى Qwen3.5 397B الأكبر (86M). معلومات أخرى: ➤ نافذة السياق: 262 ألف رمز (يمكن تمديده إلى 1M عبر YaRN) ➤ الرخصة: Apache 2.0 ➤ تسعير API (سحابة علي بابا): 397 مليون: 0.60 دولار/3.60 دولار، 122 مليار: 0.40 دولار/3.20 دولار، 27 مليون: 0.30 دولار/2.40 دولار، 35 مليار A3B: 0.25 دولار/2.00 دولار لكل مليون رمز إدخال/إخراج

الأفضل

المُتصدِّرة

التطبيقات المفضلة