لقد شهدنا مؤخرًا تطورًا مثيرًا في عالم نماذج الذكاء الاصطناعي، حيث تم تدشين تجربة جديدة تمتزج بين تقنيات التعلم المعزز (Reinforcement Learning) والمكافآت القابلة للتحقق (Verifiable Rewards) في بيئات العمل الخاصة بشركة أتلانتيك.

قد تم تصميم نماذج اللغات الكبيرة (Large Language Models) لتوقع التوكن التالي، ولكن هذه النماذج لم تكن مخصصة في الأصل للتفاعل بكفاءة مع واجهات برمجة التطبيقات (APIs) الخاصة بالشركات. في سياقات الأعمال حيث النجاح يتطلب إدخال المعطيات في الترتيب الصحيح، تظهر العديد من المشكلات مثل فقدان الحقول المطلوبة أو استخدام أدوات غير موجودة.

إذن، هل يمكن للتعلم المعزز مع المكافآت القابلة للتحقق (RLVR) أن يسد الفجوة؟

قام الباحثون ببناء مجموعة من البيئات الاصطناعية التي تحاكي واجهات برمجة التطبيقات للرجي (Jira REST v3) والكونفلوينس (Confluence v2)، ودون استخدام API حية أو قضاة تعلم آلي، تم حساب المكافآت بالكامل من تتبع استدعاءات الأدوات التي لم تتدخل فيها علامات بشرية.

النتائج كانت مثيرة، حيث وجدنا أنّ النموذج الذي تم تدريبه باستخدام RLVR قد زاد معدل المكافآت من النطاق الأساسي (0.35–0.92) إلى (0.95–1.00)، مع أكبر زيادة حدثت خلال إنشاء صفحات الكونفلوينس، مما يشير إلى فعالية هذا الأسلوب الجديد.

ولكن، يجب أن نأخذ بعين الاعتبار بعض القيود مثل عدم قابلية هذه المكافآت القابلة للتحقق للتوسع خارج حزمة القابلة للتطبيقات الجذرية المحددة، حيث أن أحد السيناريوهات التي تم اختبارها كانت لها مكافأة مشبعة ينبغي أخذها في الاعتبار.

إذاً، كيف يمكن أن تؤثر هذه التطورات على مستقبل نماذج الذكاء الاصطناعي في البيئات الوظيفية؟ شاركونا آراءكم في التعليقات.