في بيئات مفتوحة وغير محدودة، يعتبر الاستكشاف عنصراً أساسياً لوكلاء الذكاء الاصطناعي المستقلين. لكن تواجه النماذج اللغوية الحالية صعوبة في تنفيذ هذا الاستكشاف بشكل فعّال. يعتمد الاستكشاف الفعال على الذاكرة، لكن الاحتفاظ بسجلات التفاعل الخام يُعتبر عملية مكلفة حسابياً على المدى الطويل.

هنا تبرز أهمية الذاكرة الكامنة التي تقدم حلاً لضغط تاريخ التفاعلات، إلا أن تدريبها يفتقر إلى إشارات إشراف موثوقة. لذلك، نقدم لكم إطار العمل الجديد المعروف بـ extbf{J}oint extbf{A}gent extbf{M}emory and extbf{E}xploration extbf{L}earning (جامل)، الذي يقوم بتدريب الذاكرة الوكالية واستراتيجية الاستكشاف معاً من خلال تفاعل مدفوع بإشارات الجدة.

تُظهر تجاربنا أن الذاكرة والاستكشاف يشكلان حلقة متداخلة تعزز بعضها البعض: يتطلب الاستكشاف المستدام وجود ذاكرة للتمييز بين السلوكيات المستنفدة وتلك غير المعروفة، بينما يوفر التفاعل الذي يسعى للجدة الإشراف اللازم لجعل الذاكرة مفيدة لاستكشاف المستقبل. من خلال استخدام إشارات الجدة الحتمية والثابتة مثل تغطية الكود في مجال واجهة المستخدم، نقدم إشرافاً طبيعياً دون الحاجة إلى توضيحات معقدة.

أظهرت التقييمات التجريبية أن النموذج الجديد يحقق نجاحات ملحوظة في التعميم على البيئات غير المعروفة، حيث تفوق قدراته في الاستكشاف على الأساليب الأساسية ذات الوزن المفتوح، وتتنافس عمق استكشافه مع النموذج المغلق المصدر، بينما يقلل من استهلاك الرموز.

لمزيد من التفاصيل، يمكنكم الاطلاع على الكود والنموذج المتوفر بصيغة مفتوحة المصدر على موقع GitHub: [https://github.com/MobileLLM/JAMEL].