كنت أفكر مؤخرا في التعلم المستمر، خاصة فيما يتعلق بالوكلاء القدامى (وإجراء بعض التجارب البسيطة مع MLX). الوضع الراهن للضغط السريع مع العوامل الفرعية التكرارية فعال بشكل ملحوظ. يبدو أننا نستطيع أن نذهب بعيدا في هذا. (ضغط التوجيه = عندما تقترب نافذة السياق من الامتلاء، ينتج النموذج ملخصا أقصر، ثم يبدأ من الصفر باستخدام الملخص. الوكلاء الفرعيون التكراريون = تفكيك المهام إلى مهام أصغر للتعامل مع نوافذ السياق المحدود) الوكلاء الفرعيون التكراريون سيكونون على الأرجح دائما مفيدين. لكن ضغط الأوامر يبدو كخدعة غير فعالة (رغم فعاليتها العالية). هناك بديلان آخران أعرفهما: 1. الضبط الدقيق عبر الإنترنت و 2. تقنيات تعتمد على الذاكرة. الضبط الدقيق عبر الإنترنت: درب بعض محولات LoRA على البيانات التي يواجهها النموذج أثناء النشر. أنا أقل تفاؤلا لهذا بشكل عام. بعيدا عن التحديات الهندسية في نشر نماذج / محولات مخصصة لكل حالة استخدام / مستخدم، هناك بعض القضايا الأساسية: - الضبط الدقيق عبر الإنترنت غير مستقر بطبيعته. إذا تدربت على البيانات في المجال المستهدف، يمكنك تدمير القدرات التي لا تستهدفها بشكل كارثي. إحدى الطرق هي الاحتفاظ بمجموعة بيانات مختلطة بين الجديد والقديم. لكن الأمر يصبح معقدا بسرعة. - كيف تبدو البيانات حتى للضبط الدقيق عبر الإنترنت؟ هل تولد أزواج أسئلة وأجوبة بناء على المجال المستهدف لتدريب النموذج؟ لديك أيضا مشكلة في إعطاء الأولوية للمعلومات في خليط البيانات إذا كانت السعة محدودة. تقنيات الذاكرة: هي في الأساس سياسة للحفاظ على الذاكرة المفيدة والتخلص من ما لا يحتاج. هذا يشبه بكثير كيف يحتفظ البشر بالمعلومات: "استخدمها أو تخسرها". تحتاج فقط إلى بعض الأمور ليعمل هذا: - سياسة إخلاء/احتفاظ. شيء مثل "احتفظ بذاكرة إذا تم الوصول إليها مرة واحدة على الأقل خلال آخر 10 آلاف رمز". - يجب أن تكون السياسة قابلة للحوسبة بكفاءة - مكان لتخزين النموذج والوصول إلى الذاكرة طويلة المدى. ربما يكون كاف ذاكرة تخزين مؤقت KV ذات الوصول المحدود إلى حد ما. ولكن للوصول الفعال إلى ذاكرة كبيرة، قد يكون من الأفضل أن يكون هيكل البيانات الهرمي أفضل.