في عالم الذكاء الاصطناعي، أصبحت نماذج اللغة الكبيرة (LLMs) ركيزة أساسية، لكن حياتها العملية تواجه قيودا كبيرة بفعل الفجوة الصارمة بين مرحلة التدريب ومرحلة النشر، حيث يتوقف التعلم فعلياً بعد إطلاق النموذج. يتناقض هذا الحد مع الذكاء الطبيعي الذي يتكيف باستمرار من خلال التفاعل مع بيئته.

في ورقة بحثية جديدة، تم تقديم مفهوم التعلم في وقت النشر (Deployment-Time Learning - DTL) كمرحلة ثالثة في دورة حياة نماذج اللغة الكبيرة، مما يمكّن الوكلاء (agents) من تحسين أدائهم من خلال الخبرات المكتسبة بدون تعديل معلمات النموذج.

الكشف عن CASCADE (تكييف مستمر قائم على الحالات أثناء النشر) كإطار عام يزود الوكلاء بذاكرة episodic تتطور مع مرور الوقت. تتميز CASCADE بصياغة إعادة استخدام الخبرات كمشكلة من نوع bandit السياقية، مما يمكّن من تحقيق توازن ذكي بين الاستكشاف والاستغلال ويضمن عدم الندم على المدى الطويل.

تمكن هذه التصميمات الوكلاء من جمع، اختيار، وتحسين الحالات المتعلقة بالمهام، مما يحول الخبرات السابقة إلى معرفة قابلة للتصرف.

عند تطبيق CASCADE على 16 مهمة متنوعة تشمل التشخيص الطبي، التحليل القانوني، توليد الأكواد، البحث الإلكتروني، استخدام الأدوات، والتفاعل المادي، أظهرت النتائج تحسناً بمعدل نجاح متوسط بلغ 20.9% مقارنة بأساليب التنبيه الصفرية.

من خلال إعادة تصوير مرحلة النشر كعملية تعلم تكيفية، يؤسس هذا العمل قاعدة لنظم الذكاء الاصطناعي القابلة للتحسين المستمر. ما هي انطباعاتكم حول هذا الابتكار في عالم الذكاء الاصطناعي؟ دعونا نتفاعل في التعليقات.