في عالم الذكاء الاصطناعي، وخاصة في ما يتعلق بنماذج اللغة الضخمة (Large Language Models)، يُعتبر التعلم من التجارب السابقة أحد التحديات البارزة للمطورين. حيث نجد عادةً أن التقنيات المتبعة تفصل بين استخدام الخبرات المجمعة، حيث تُستخدم كقواعد لغوية مرجعية أو لتحديث معلمات النموذج من خلال التغذية الراجعة. ومن جهة أخرى، يمكن أن تؤدي هذه الطرق إلى قيود في التكيف مع السياسات المتطورة أو تحسين السلوكيات في سيناريوهات المكافأة النادرة.

لذلك، يبرز هنا مفهوم "التعلم المشترك للقواعد والخطط التجريبية لوكلاء نماذج اللغة الضخمة" (Joint Learning of Experiential Rules and Policies for LLM Agents - JERP)، الذي يُعَد تحديثًا مهمًا في هذا المجال. يعتمد نموذج JERP على تحديث قاعدة القواعد التجريبية على المدى الطويل مع تحسين السياسة من نفس مسارات التفاعل.

يتميز هذا النموذج بالتعاون غير المسبوق بين القواعد المستمدة من التجربة والسياسات المتطورة. أثناء اتخاذ القرار، يقوم JERP باسترجاع القواعد ذات الصلة بالمهمة، ويجمعها مع تاريخ التفاعل للوكيل. بعد كل حلقة، تستخدم المسارات المجمعة لتعزيز السياسة ومراجعة قاعدة القواعد وذلك من خلال مقارنة النتائج الحالية مع المسارات المرجعية الناجحة.

من خلال هذه الطريقة، يتم الحفاظ على توافق قاعدة القواعد مع السياسات المتطورة، مما يسمح بامتصاص سلوكيات فعالة تدريجياً داخل النموذج. وقد أظهرت تجارب تتعلق بـ AlfWorld و WebShop أن نموذج JERP حقق تحسينات ملحوظة في أداء القرار للمهام التفاعلية المعقدة.

إذا كنت مهتمًا بكل ما يتعلق بالتكنولوجيا والذكاء الاصطناعي، فهذا البحث يمثل خطوة جديدة ومثيرة في هذا المجال، ويستحق الاطلاع والبحث.