تُعتبر المهام متعددة المراحل من أكبر التحديات التي تواجه نماذج اللغات الكبيرة (Large Language Models) في الآونة الأخيرة، حيث تتطلب تنفيذ إجراءات معقدة ومتعددة الخطوات. ومع تطور الأبحاث، ظهر نموذج يُعرف باسم PAIR، والذي يرمز إلى "نموذج مكافآت داخلية واعية بالبادئة" (Prefix-Aware Internal Reward Model) كحلاً مبتكراً لهذه المشكلة.
تستند آلية عمل نموذج PAIR على فرضية تخدم كل من الكفاءة والدقة، حيث يتناول مشاكل نموذج "تحسين السياسة النسبية الجماعية" (Group Relative Policy Optimization - GRPO) التي تعتمد عادةً على مكافآت نتائج متفرقة. من المعروف أن هذه الطريقة تعاني من قيود شديدة في تخصيص الفضل للخطوات الوسيطة، مما يجعل من الصعب تقييم الأداء واتخاذ القرارات الصحيحة خلال المهام المعقدة.
تتضمن الحلول التقليدية استخدام جولات كاملة لتخصيص مزايا على مستوى الخطوات، أو الاعتماد على حكماء خارجيين في كل خطوة، أو استخدام مكافآت داخلية تتطلب إجابات صحيحة في كل تقييم. لكن هذه الحلول تحمل تكاليف أو قيود عملية كبيرة.
في المقابل، اقترح الباحثون في نموذج PAIR استخدام استكشاف داخلي للمخفي (hidden states) لنماذج اللغات الكبيرة كمؤشر لمكافآت الخطوة، مما يمكن أن يعالج جميع هذه القيود في وقت واحد.
ومع ذلك، فقد أظهرت الأبحاث السابقة أن الاستكشاف يفترض وجود مدخلات نظيفة، وهي فرضية تتعطل في البيئات متعددة الخطوات. أظهر الفريق أن استكشاف الحالة المخفية لتتبع التناسق مع البادئة (prefix) الممزوجة يؤدي إلى نتائج مخيبة، في حين تبقى الميزات المستندة إلى الانتباه مقاومة للتلوث لكن أداؤها يتراجع مع المدخلات النظيفة.
لهذا، تم تطوير نموذج PAIR ليكون نموذجاً على مرحلتين؛ تتمثل المرحلة الأولى في استخدام استكشاف حالة مخفية لتقدير التناسق، بينما تقوم المرحلة الثانية بتصحيح هذا التقدير نحو صحة grounded correctness من خلال استخدام رأس مستند إلى الانتباه.
لقد أظهرت النتائج التجريبية أن نموذج PAIR يحقق أعلى معدل للتصنيف على المسارات الملوثة، بينما يعمل بتكلفة استدلال ضئيلة، مما يمكّن من تقديم إشارات مكافآت كثيفة لدعم تدريب نموذج GRPO دون الحاجة إلى استدعاءات نموذج خارجيه أو اعتماد على حقائق مستقلة أو جولات كاملة.
الذكاء الاصطناعي في طفرة جديدة: نموذج PAIR لتحسين وكيل متعدد الأدوار
تمكن نموذج PAIR من تخطي تحديات المهام متعددة المراحل في نماذج اللغات الكبيرة (Large Language Models) باستخدام نظام مكافآت داخلي مبتكر. نتائج تجريبية مثيرة تظهر إمكانياته في تعزيز الأداء بكفاءة عالية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
