تُعتبر المهام متعددة المراحل من أكبر التحديات التي تواجه [نماذج [اللغات](/tag/اللغات) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الكبيرة) (Large Language [Models](/tag/models)) في الآونة الأخيرة، حيث تتطلب [تنفيذ](/tag/تنفيذ) [إجراءات](/tag/إجراءات) معقدة ومتعددة الخطوات. ومع [تطور](/tag/تطور) الأبحاث، ظهر [نموذج](/tag/نموذج) يُعرف باسم PAIR، والذي يرمز إلى "[نموذج مكافآت](/tag/[نموذج](/tag/نموذج)-[مكافآت](/tag/مكافآت)) داخلية واعية بالبادئة" (Prefix-Aware Internal Reward [Model](/tag/model)) كحلاً مبتكراً لهذه المشكلة.
تستند آلية [عمل](/tag/عمل) [نموذج](/tag/نموذج) PAIR على فرضية تخدم كل من [الكفاءة](/tag/الكفاءة) والدقة، حيث يتناول مشاكل [نموذج](/tag/نموذج) "[تحسين السياسة](/tag/[تحسين](/tag/تحسين)-السياسة) النسبية الجماعية" (Group Relative [Policy Optimization](/tag/policy-optimization) - [GRPO](/tag/grpo)) التي تعتمد عادةً على [مكافآت](/tag/مكافآت) نتائج متفرقة. من المعروف أن هذه الطريقة تعاني من [قيود](/tag/قيود) شديدة في [تخصيص](/tag/تخصيص) الفضل للخطوات الوسيطة، مما يجعل من الصعب [تقييم الأداء](/tag/[تقييم](/tag/تقييم)-[الأداء](/tag/الأداء)) واتخاذ القرارات الصحيحة خلال المهام المعقدة.
تتضمن الحلول التقليدية استخدام جولات كاملة لتخصيص مزايا على مستوى الخطوات، أو الاعتماد على حكماء خارجيين في كل خطوة، أو استخدام [مكافآت داخلية](/tag/[مكافآت](/tag/مكافآت)-داخلية) تتطلب إجابات صحيحة في كل [تقييم](/tag/تقييم). لكن هذه الحلول تحمل [تكاليف](/tag/تكاليف) أو [قيود](/tag/قيود) عملية كبيرة.
في المقابل، اقترح الباحثون في [نموذج](/tag/نموذج) PAIR استخدام [استكشاف](/tag/استكشاف) داخلي للمخفي (hidden states) لنماذج [اللغات](/tag/اللغات) الكبيرة كمؤشر لمكافآت الخطوة، مما يمكن أن يعالج جميع هذه [القيود](/tag/القيود) في وقت واحد.
ومع ذلك، فقد أظهرت [الأبحاث](/tag/الأبحاث) السابقة أن [الاستكشاف](/tag/الاستكشاف) يفترض وجود مدخلات نظيفة، وهي فرضية تتعطل في البيئات متعددة الخطوات. أظهر الفريق أن [استكشاف](/tag/استكشاف) الحالة المخفية لتتبع [التناسق](/tag/التناسق) مع البادئة (prefix) الممزوجة يؤدي إلى نتائج مخيبة، في حين تبقى الميزات المستندة إلى [الانتباه](/tag/الانتباه) [مقاومة](/tag/مقاومة) للتلوث لكن أداؤها يتراجع مع المدخلات النظيفة.
لهذا، تم [تطوير](/tag/تطوير) [نموذج](/tag/نموذج) PAIR ليكون نموذجاً على مرحلتين؛ تتمثل المرحلة الأولى في استخدام [استكشاف](/tag/استكشاف) حالة مخفية لتقدير التناسق، بينما تقوم المرحلة الثانية بتصحيح هذا التقدير [نحو](/tag/نحو) [صحة](/tag/صحة) grounded correctness من خلال استخدام رأس مستند إلى [الانتباه](/tag/الانتباه).
لقد أظهرت النتائج التجريبية أن [نموذج](/tag/نموذج) PAIR يحقق أعلى معدل للتصنيف على المسارات الملوثة، بينما يعمل بتكلفة [استدلال](/tag/استدلال) ضئيلة، مما يمكّن من تقديم [إشارات](/tag/إشارات) [مكافآت](/tag/مكافآت) كثيفة لدعم [تدريب](/tag/تدريب) [نموذج](/tag/نموذج) [GRPO](/tag/grpo) دون الحاجة إلى استدعاءات [نموذج](/tag/نموذج) خارجيه أو اعتماد على حقائق مستقلة أو جولات كاملة.
الذكاء الاصطناعي في طفرة جديدة: نموذج PAIR لتحسين وكيل متعدد الأدوار
تمكن نموذج PAIR من تخطي تحديات المهام متعددة المراحل في نماذج اللغات الكبيرة (Large Language Models) باستخدام نظام مكافآت داخلي مبتكر. نتائج تجريبية مثيرة تظهر إمكانياته في تعزيز الأداء بكفاءة عالية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
