المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Lior Alexander
تغطية آخر أخبار المطورين في الذكاء الاصطناعي • المؤسس @AlphaSignalAI (250 ألف مستخدم)
مهندس ML منذ 2017 • لاعب سابق في ميلا
نموذج بسعة 24 مليار معامل كان يعمل على لابتوب واختار الأداة المناسبة في أقل من نصف ثانية.
القصة الحقيقية هي أن وكلاء استدعاء الأدوات أصبحوا أخيرا سريعين بما يكفي ليشعروا وكأنهم برمجيات.
بنيت Liquid LFM2-24B-A2B باستخدام بنية هجينة تمزج بين كتل الالتفاف مع تركيز الاستعلام المجمع بنسبة 1:3.
يتم تفعيل 2.3 مليار معلم فقط لكل رمز، رغم أن النموذج الكامل يحتوي على 24 مليار.
هذا نمط التفعيل المتقطع هو السبب في أنه يتناسب مع 14.5 جيجابايت من الذاكرة ويرسل الأدوات في 385 مللي ثانية على M4 Max.
تم تصميم البنية من خلال البحث في العتاد داخل الحلقة، مما يعني أنهم قاموا بتحسين هيكل النموذج من خلال اختباره مباشرة على الشرائح التي سيعمل عليها. لا توجد طبقة ترجمة سحابية.
لا توجد واجهة برمجة تطبيقات (API) ذهابا وإيابا. النموذج والأدوات وبياناتك تبقى على الجهاز.
هذا يفتح ثلاثة أشياء كانت غير عملية من قبل:
1. يمكن للصناعات المنظمة تشغيل الوكلاء على أجهزة الكمبيوتر المحمولة للموظفين دون خروج البيانات من الجهاز.
2. يمكن للمطورين إنشاء نماذج أولية لسير العمل متعدد الأدوات دون إدارة مفاتيح API أو حدود المعدل.
3. تحصل فرق الأمن على سجلات تدقيق كاملة دون وجود معالجات فرعية من البائعين في الحلقة.
حقق النموذج دقة 80٪ في اختيار أداة خطوة واحدة عبر 67 أداة عبر 13 خادم MCP.
إذا استمر هذا الأداء على نطاق واسع، فهناك افتراضان بحاجة إلى تحديث.
أولا، لم تعد الوكيلات على الجهاز مجرد مقايضة بعمر البطارية؛ إنها ميزة امتثال.
ثانيا، الاختناق في سير العمل الوكيلي يتحول من قدرة النماذج إلى نضج النظام البيئي للأدوات.
36
شخص ما تجاوز محرك Neural Engine من آبل لتدريب النماذج.
تم تصميم محرك Neural Engine داخل كل جهاز Mac من سلسلة M ليكون استنتاجا.
استخدم عارضات الأزياء، لا تدربها. لا توجد واجهة برمجة تطبيقات عامة، ولا وثائق، وبالتأكيد لا يوجد انتشار عكسي.
على أي حال، قام باحث بعكس هندسة واجهات برمجة التطبيقات الخاصة وبنى حلقة تدريب على المحولات تمر بتمريرات ذهابا وإيابا مباشرة على أجهزة ANE.
تتجاوز الطريقة CoreML تماما.
بدلا من استخدام أدوات آبل الرسمية، يقوم المشروع ببناء برامج بلغة MIL (لغة النموذج الوسيطة)، ويجمعها في الذاكرة باستخدام واجهات برمجة تطبيقات '_ANEClient' غير موثقة، ويغذي البيانات عبر مخازن ذاكرة مشتركة على IOSurface.
الأوزان تدمج في البرامج المجمعة كثواب. E
تقوم خطوة التدريب في ACH بإرسال ست نوى مخصصة: الانتباه للأمام، التغذية الأمامية للأمام، ثم أربع تمريرات للخلف تحسب التدرجات بالنسبة للمدخلات.
لا تزال تدرجات الوزن تعمل على المعالج باستخدام مكتبات المصفوفات الخاصة ب Accelerate، لكن العمل الشاق (مضاعفات المصفوفة، softmax، وظائف التفعيل) يحدث على جهاز ANE.
هذا يجعل ثلاثة أشياء ممكنة لم تكن ممكنة من قبل:
1. تدريب النماذج الصغيرة محليا دون استهلاك البطارية
2. الضبط الدقيق على الجهاز دون إرسال البيانات إلى خادم أو تشغيل وحدة معالجة الرسوميات
3. البحث في ما يمكن أن تفعله أجهزة ANE فعليا عندما تتجاهل حواجز آبل
إذا توسع هذا النهج، فإن الموجة التالية من الذكاء الاصطناعي على الجهاز ستتوقف عن تشغيل نموذج مجمد لشخص آخر.

Vali Neagu2 مارس، 21:07
نعم! قام شخص ما بعكس هندسة محرك Neural Engine الخاص ب Apple ودرب شبكة عصبية عليه.
آبل لم تسمح بذلك أبدا. ANE يعتمد فقط على الاستنتاج. لا توجد واجهة برمجة تطبيقات عامة، ولا مستندات.
ومع ذلك، فتحوها على أي حال.
لماذا يهم:
• M4 ANE = 6.6 TFLOPS/W مقابل 0.08 لجهاز A100 (80× أكثر كفاءة)
• "38 TOPS" كذبة - معدل النقل الحقيقي هو 19 TFLOPS FP16
• جهاز Mac mini الخاص بك يحتوي على هذه الشريحة في وضع التوقف تقريبا
الترجمة: استنتاج ذكاء اصطناعي محلي أسرع ويستهلك طاقة شبه معدومة.
لا تزال الأبحاث مبكرة لكن الباب مفتوح الآن.
→
#AI #MachineLearning #AppleSilicon #LocalAI #OpenSource #ANE #CoreML #AppleSilicon #NPU #KCORES

652
أطلقت علي بابا أربعة نماذج صغيرة من كوين 3.5 مع خدعة مستعارة من طراز 397B: الاهتمام الهجين بشبكة دلتا نت.
ثلاث طبقات من الانتباه الخطي مقابل كل طبقة من الانتباه الكامل.
تتعامل الطبقات الخطية مع العمليات الحسابية الروتينية مع استخدام مستمر للذاكرة. طبقات الانتباه الكاملة تطلق فقط عندما تكون الدقة مهمة.
تحافظ هذه النسبة 3:1 على ثبات الذاكرة بينما تبقى الجودة عالية، ولهذا السبب حتى نموذج 0.8B يدعم نافذة سياق مكونة من 262,000 رمز.
كل نموذج يتعامل مع النصوص والصور والفيديو بشكل أصلي.
لم يتم تثبيت أي محول بعد ذلك. يستخدم مشفر الرؤية الالتفافات ثلاثية الأبعاد لالتقاط الحركة في الفيديو، ثم يدمج ميزات من عدة طبقات بدلا من الطبقة النهائية فقط.
يتفوق 9B على GPT-5-Nano بفارق 13 نقطة في الفهم متعدد الوسائط، و17 نقطة في الرياضيات البصرية، و30 نقطة في تحليل المستندات. يعمل 0.8B على الهاتف ويعالج الفيديو. يتناسب 4B مع 8GB من ذاكرة VRAM ويعمل كعامل متعدد الوسائط. جميع الأربعة من Apache 2.0.
إذا استمر هذا الهيكل، فإن مساحة النماذج الصغيرة أصبحت فقط سباق قدرات بدلا من سباق حجم.
قبل عام، كان تشغيل نموذج متعدد الوسائط محليا يعني نموذج 13B+ وبطاقة رسومات قوية.
الآن نموذج 4B بسياق 262K يتعامل مع النصوص والصور والفيديو من أجهزة المستهلك.
الفجوة بين النماذج الطرفية والنماذج الرئيسية تقترب أسرع من الفجوة بين السفن الرائدة والبشر.

Qwen2 مارس، 21:18
🚀 تقديم سلسلة نماذج كوين 3.5 الصغيرة
كوين 3.5-0.8B · Qwen3.5-2B · كوين 3.5-4B · Qwen3.5-9B
✨ ذكاء أكثر، وحساب أقل.
هذه النماذج الصغيرة مبنية على نفس أساس Qwen3.5 — متعدد الوسائط الأصلي، بنية محسنة، وتعلم منطقي موسع:
• 0.8 بايت / 2 بايت → صغير، سريع، ممتاز لأجهزة الحافة
• 4B → قاعدة متعددة الوسائط قوية بشكل مفاجئ للوكلاء خفيفين الوزن
• 9B → مدمج، لكنه يقلص الفجوة بالفعل مع نماذج أكبر بكثير
ونعم — نحن أيضا نطلق نماذج Base.
نأمل أن يدعم هذا البحث والتجارب والابتكار الصناعي الواقعي بشكل أفضل.
وجه العناق:
ModelScope:

256
الأفضل
المُتصدِّرة
التطبيقات المفضلة
