في عالم الذكاء الاصطناعي، أصبح التعلم المعزز (Reinforcement Learning) نموذجًا أساسيًا في تطوير الوكلاء (agents) القائمين على نماذج اللغات الضخمة (Large Language Models). هؤلاء الوكلاء يعملون ويتفاعلون ويستوعبون مهماتهم عبر فترات طويلة. ومع ذلك، تظهر مشكلة عندما يتطلب الأمر من هؤلاء الوكلاء استنباط ملاحظات جديدة من خلال تفاعلهم مع البيئة لحل المهمات؛ وهي ما يعرف بالإغلاق الذاتي للمعلومات (Information Self-Locking - SeL).

في هذا السياق، وصف الباحثون كيفية تأثير التعلم المعزز القائم على النتائج على أداء هؤلاء الوكلاء؛ إذ تم الكشف عن أنهم يواجهون عجزًا في استنباط الملاحظات المفيدة وكذلك في استيعاب الأدلة المكتسبة. ولتفسير هذه المشكلة، تم تقسيم سلوكيات الوكيل إلى قدرتين متلازمتين: اختيار العمل (Action Selection - AS) وتعقب الاعتقاد (Belief Tracking - BT). وقد أظهرت التحليلات النظرية والتجريبية وجود عنق زجاجة ثنائي الاتجاه يؤدي إلى مشكلة الإغلاق الذاتي للمعلومات: فضعف التعقب يخفف من فعالية الأفعال المفيدة، بينما يحد ضعف اختيار العمل من الأدلة المفيدة لتعقب الاعتقاد.

للتخفيف من هذه المشكلة، اقترح الباحثون تقنية جديدة تدعى AREW، وهي طريقة إعادة وزن المزايا (Advantage Reweighting) التي تستخدم انتقادات سهلة الحصول لإعادة تخصيص الائتمان داخل المسارات. لقد أظهرت التجارب التي أجريت عبر تسع مهام عُقد مختلفة أن AREW خففت بشكل كبير من مشكلة الإغلاق الذاتي للمعلومات، مما أدى إلى تحسينات تصل إلى 60 نقطة في الأداء النهائي. هل تساءلت يومًا كيف يمكن لتقنيات مثل AREW أن تغير مستقبل الذكاء الاصطناعي؟

ترقبوا المزيد من التطورات المثيرة في هذا المجال!