تُعتبر المهام متعددة المراحل من أكبر التحديات التي تواجه [نماذج [اللغات](/tag/اللغات) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الكبيرة) (Large Language [Models](/tag/models)) في الآونة الأخيرة، حيث تتطلب [تنفيذ](/tag/تنفيذ) [إجراءات](/tag/إجراءات) معقدة ومتعددة الخطوات. ومع [تطور](/tag/تطور) الأبحاث، ظهر [نموذج](/tag/نموذج) يُعرف باسم PAIR، والذي يرمز إلى "[نموذج مكافآت](/tag/[نموذج](/tag/نموذج)-[مكافآت](/tag/مكافآت)) داخلية واعية بالبادئة" (Prefix-Aware Internal Reward [Model](/tag/model)) كحلاً مبتكراً لهذه المشكلة.

تستند آلية [عمل](/tag/عمل) [نموذج](/tag/نموذج) PAIR على فرضية تخدم كل من [الكفاءة](/tag/الكفاءة) والدقة، حيث يتناول مشاكل [نموذج](/tag/نموذج) "[تحسين السياسة](/tag/[تحسين](/tag/تحسين)-السياسة) النسبية الجماعية" (Group Relative [Policy Optimization](/tag/policy-optimization) - [GRPO](/tag/grpo)) التي تعتمد عادةً على [مكافآت](/tag/مكافآت) نتائج متفرقة. من المعروف أن هذه الطريقة تعاني من [قيود](/tag/قيود) شديدة في [تخصيص](/tag/تخصيص) الفضل للخطوات الوسيطة، مما يجعل من الصعب [تقييم الأداء](/tag/[تقييم](/tag/تقييم)-[الأداء](/tag/الأداء)) واتخاذ القرارات الصحيحة خلال المهام المعقدة.

تتضمن الحلول التقليدية استخدام جولات كاملة لتخصيص مزايا على مستوى الخطوات، أو الاعتماد على حكماء خارجيين في كل خطوة، أو استخدام [مكافآت داخلية](/tag/[مكافآت](/tag/مكافآت)-داخلية) تتطلب إجابات صحيحة في كل [تقييم](/tag/تقييم). لكن هذه الحلول تحمل [تكاليف](/tag/تكاليف) أو [قيود](/tag/قيود) عملية كبيرة.

في المقابل، اقترح الباحثون في [نموذج](/tag/نموذج) PAIR استخدام [استكشاف](/tag/استكشاف) داخلي للمخفي (hidden states) لنماذج [اللغات](/tag/اللغات) الكبيرة كمؤشر لمكافآت الخطوة، مما يمكن أن يعالج جميع هذه [القيود](/tag/القيود) في وقت واحد.

ومع ذلك، فقد أظهرت [الأبحاث](/tag/الأبحاث) السابقة أن [الاستكشاف](/tag/الاستكشاف) يفترض وجود مدخلات نظيفة، وهي فرضية تتعطل في البيئات متعددة الخطوات. أظهر الفريق أن [استكشاف](/tag/استكشاف) الحالة المخفية لتتبع [التناسق](/tag/التناسق) مع البادئة (prefix) الممزوجة يؤدي إلى نتائج مخيبة، في حين تبقى الميزات المستندة إلى [الانتباه](/tag/الانتباه) [مقاومة](/tag/مقاومة) للتلوث لكن أداؤها يتراجع مع المدخلات النظيفة.

لهذا، تم [تطوير](/tag/تطوير) [نموذج](/tag/نموذج) PAIR ليكون نموذجاً على مرحلتين؛ تتمثل المرحلة الأولى في استخدام [استكشاف](/tag/استكشاف) حالة مخفية لتقدير التناسق، بينما تقوم المرحلة الثانية بتصحيح هذا التقدير [نحو](/tag/نحو) [صحة](/tag/صحة) grounded correctness من خلال استخدام رأس مستند إلى [الانتباه](/tag/الانتباه).

لقد أظهرت النتائج التجريبية أن [نموذج](/tag/نموذج) PAIR يحقق أعلى معدل للتصنيف على المسارات الملوثة، بينما يعمل بتكلفة [استدلال](/tag/استدلال) ضئيلة، مما يمكّن من تقديم [إشارات](/tag/إشارات) [مكافآت](/tag/مكافآت) كثيفة لدعم [تدريب](/tag/تدريب) [نموذج](/tag/نموذج) [GRPO](/tag/grpo) دون الحاجة إلى استدعاءات [نموذج](/tag/نموذج) خارجيه أو اعتماد على حقائق مستقلة أو جولات كاملة.