في عالم الذكاء الاصطناعي، يُعتبر تعلم التعزيز الوكالي (Agentic Reinforcement Learning - ARL) خطوة رئيسية في تدريب نماذج لغة ضخمة على تنفيذ مهام معقدة تجمع بين التفكير المنطقي واستخدام الأدوات الخارجية. لكن، هل كل ما نعتقده عن تدريب النماذج هو صحيح؟
أظهرت الدراسة الأخيرة أن العديد من أساليب ARL تعتمد على فرضية مثيرة للجدل، وهي أن تدريب مجموعة واحدة من المعلمات لدعم السلوكيات المنطقية واستخدام الأدوات سيوفر أداءً أفضل للوكيل الذكي. ومع ذلك، نادراً ما تم دراسة هذا الافتراض بشكل تجريبي.
استعرض الباحثون هذه الفرضية من خلال تقديم مفهوم جديد يُعرف بتأثير نسبة القدرة (Capability Effect Attribution - CEA)، والذي يوفر أدلة كمية على التداخل بين التفكير واستخدام الأدوات. ومن خلال تحليل عميق، وجدوا أن هاتين القدرتين قد تؤديان أحياناً إلى اتجاهات تدرج غير متوافقة، مما يؤدي إلى تداخل تدريب يضعف فعالية تحسين الأداء المشترك.
للتغلب على هذه التحديات، اقترحوا إطاراً جديداً يُعرف باسم ضبط الإجراء المنفصل - التفكير (Disentangled Action--Reasoning Tuning - DART)، الذي يفصل بوضوح تحديثات المعلمات لكل من التفكير واستخدام الأدوات عبر وحدات تكيف منخفضة الرتبة. ومن خلال هذا التغيير البسيط، أظهرت DART أداءً أعلى من جميع الأساليب التقليدية المأخوذة في الاعتبار، واقتربت من الحدود العليا للأداء عبر 13 معيارًا في مجالات مثل أسئلة وجوابات مدعومة بالاسترجاع (retrieval-augmented QA) وNL2SQL.
هذه النتائج تعزز فرضية وجود تداخل قدرات تحت التحسين المشترك، مما يفتح أبواباً جديدة لفهم أفضل لكيفية عمل نماذج الذكاء الاصطناعي في بيئات معقدة.
ثورة في تعلم التعزيز: كيف تؤثر أدوات الذكاء الاصطناعي على التفكير المنطقي؟
تستكشف دراسة جديدة مفهوم التعلم الذاتي الوكالي (ARL) وتظهر كيف يمكن أن تؤثر أدوات الذكاء الاصطناعي على قدرة الأنظمة على التفكير. يتناول البحث طريقة جديدة لتحسين أداء النماذج اللغوية من خلال فصل تحديثات الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
