في عالم الذكاء الاصطناعي، يُعتبر تعلم التعزيز الوكالي (Agentic Reinforcement Learning - ARL) خطوة رئيسية في تدريب نماذج لغة ضخمة على تنفيذ مهام معقدة تجمع بين التفكير المنطقي واستخدام الأدوات الخارجية. لكن، هل كل ما نعتقده عن تدريب النماذج هو صحيح؟

أظهرت الدراسة الأخيرة أن العديد من أساليب ARL تعتمد على فرضية مثيرة للجدل، وهي أن تدريب مجموعة واحدة من المعلمات لدعم السلوكيات المنطقية واستخدام الأدوات سيوفر أداءً أفضل للوكيل الذكي. ومع ذلك، نادراً ما تم دراسة هذا الافتراض بشكل تجريبي.

استعرض الباحثون هذه الفرضية من خلال تقديم مفهوم جديد يُعرف بتأثير نسبة القدرة (Capability Effect Attribution - CEA)، والذي يوفر أدلة كمية على التداخل بين التفكير واستخدام الأدوات. ومن خلال تحليل عميق، وجدوا أن هاتين القدرتين قد تؤديان أحياناً إلى اتجاهات تدرج غير متوافقة، مما يؤدي إلى تداخل تدريب يضعف فعالية تحسين الأداء المشترك.

للتغلب على هذه التحديات، اقترحوا إطاراً جديداً يُعرف باسم ضبط الإجراء المنفصل - التفكير (Disentangled Action--Reasoning Tuning - DART)، الذي يفصل بوضوح تحديثات المعلمات لكل من التفكير واستخدام الأدوات عبر وحدات تكيف منخفضة الرتبة. ومن خلال هذا التغيير البسيط، أظهرت DART أداءً أعلى من جميع الأساليب التقليدية المأخوذة في الاعتبار، واقتربت من الحدود العليا للأداء عبر 13 معيارًا في مجالات مثل أسئلة وجوابات مدعومة بالاسترجاع (retrieval-augmented QA) وNL2SQL.

هذه النتائج تعزز فرضية وجود تداخل قدرات تحت التحسين المشترك، مما يفتح أبواباً جديدة لفهم أفضل لكيفية عمل نماذج الذكاء الاصطناعي في بيئات معقدة.