في عالم الذكاء الاصطناعي، يظهر التعلم التعزيزي (Reinforcement Learning - RL) كعامل مؤثر في تطوير سلوكيات الوكلاء. دراسة حديثة نشرت على موقع arXiv تسلط الضوء على كيفية تحسين التعلم التعزيزي لقدرات نماذج اللغة في استخدام الأدوات. على الرغم من التحسينات الكبيرة في توليد المكالمات الهيكلية للأدوات، إلا أن الأساس الميكانيكي لهذه التغييرات لا يزال غير مفهوم جيدًا.
تستند الدراسة إلى استخدام ما يسمى بــ الناقلات المخصصة للميزات المتقاطعة (Dedicated Feature Crosscoders - DFC) لعزل مجموعة مختصرة من الميزات المرتبطة بالتعلم التعزيزي والتي تؤثر على قدرة نموذج Qwen2.5-3B في استدعاء الأدوات. قامت الدراسة بإجراء تجارب لتحسين المعلمات على 48 نموذجًا مختلفًا، حيث أظهرت أن إعادة التكوين بين الترميز والفك قد حسنت دقة استخدام الأدوات بنسبة 31.1 ± 9.7 نقطة مئوية.
تسجل الدراسة أيضًا زيادة في القدرة على استدعاء الأدوات في النموذج الأساسي الثابت بنسبة 6.8 ± 5.0 نقطة مئوية، وهو ما أطلق عليه اسم تسرب القدرة (capability spillover). تشير النتائج إلى أن تقسيم DFC يركز القدرة المدخلة من RL في مجموعة ميزات بسيطة وقابلة للتوجيه، مما يمكّن التحكم السلوكي في النماذج اللغوية الوكيلة.
هذه الدراسة تعزز فهمنا لكيفية تأثير التعلم التعزيزي على نماذج الذكاء الاصطناعي وتجعلنا نتساءل: ما الطبقات القادمة من الإبداع التي يمكن أن نكتشفها في تطور هذه التكنولوجيا المثيرة؟
استكشاف تأثير التعلم التعزيزي على استخدام الأدوات في نماذج الذكاء الاصطناعي: دراسة جديدة تثير الشغف!
تكشف دراسة جديدة عن كيفية تعزيز التعلم التعزيزي (Reinforcement Learning) لقدرات نماذج اللغة في استخدام الأدوات. يسلط البحث الضوء على الميزات المحددة التي تساهم في هذا الأداء المتميز.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
