تعتبر عملية التفكير الوكالي (Agentic Reasoning) أداةً مهمة في تعزيز قدرات نماذج التفكير الكبيرة (Large Reasoning Models) على اكتساب المعرفة من مصادر خارجية بشكل ديناميكي. ومع ذلك، تبقى عملية تحسين استرجاع المعلومات (Retrieval) واحدة من أكبر التحديات، نظرًا لعدم توفر إشارات مكافأة كثيفة ومنهجية تؤدي إلى تعزيز هذا الاسترجاع بطريقة فعالة.

في هذه الإطار، قدم الباحثون تقنية جديدة تُعرف بـ InfoReasoner، والتي توفر هيكلًا موحدًا لتحفيز البحث عن المعلومات بفضل مكافأة مبتكرة تُسمى مكافأة الزيادة المعرفية الاصطناعية (Synthetic Semantic Information Gain Reward). ومن خلال إعادة تعريف مفهوم الزيادة المعرفية كمقياس لتقليل عدم اليقين في حالات اعتقاد النموذج، يتيح هذا الإطار ضمانات تشمل عدم السلبية (Non-negativity) والإضافة التلسكوبية (Telescoping Additivity) والاتساق القنوي (Channel Monotonicity).

على الصعيد العملي، لتعزيز تحسين مستدام دون الحاجة إلى تعزيزات يدوية لاسترجاع المعلومات، اقترحت الدراسة أداة تقدير داخلية واعية للإخراج (Output-Aware Intrinsic Estimator) تحسب الزيادة المعرفية مباشرةً من توزيعات إخراج النموذج باستخدام التجميع الدلالي عبر الاستدلال النصي ثنائي الاتجاه (Bidirectional Textual Entailment). هذه المكافأة الداخلية تساعد في توجيه السياسة لتحقيق أقصى تقدم معرفي، مما يمكّن من تدريب فعال عبر تحسين سياسة التقييم النسبي الجماعي (Group Relative Policy Optimization - GRPO).

من خلال التجارب التي أُجريت على سبعة معايير للإجابة على الأسئلة، أظهرت نتائج الـ InfoReasoner تفوقًا مستمرًا على نماذج الاسترجاع القوية، مع تحقيق زيادة تصل إلى 5.4% في دقة الأداء. يوفر هذا العمل مسارًا نظريًا متسقًا وفعالًا نحو تحسين التفكير الوكالي عبر استرجاع المعلومات. لمزيد من التفاصيل، يمكنك الاطلاع على الكود المتاح على الرابط التالي: GitHub InfoReasoner.