في عالم الذكاء الاصطناعي، يسعى الباحثون جاهدين لتحسين كفاءة نماذج التعليمات اللغة (Large Language Models - LLMs) في مهام البرمجة المختلفة. وقد أثبت التعلم المعزز (Reinforcement Learning - RL) مع المكافآت القابلة للتأكيد فعاليته القوية في تدريب هذه النماذج. إلا أن توظيف متخصصين محددين لكل مهمة ينطوي على تكاليف تتزايد مع ازدياد عدد المهام، مما يستدعي اعتماد نهج موحد في التعلم المعزز متعدد المهام (Multi-task Reinforcement Learning - MTRL).

مع ذلك، تعتمد الطرق الحالية لمتعلم MTRL على التعامل مع جميع مهام البرمجة بشكل متساوٍ، مما يقيد فعالية التدريب المتعدد المهام، حيث تعتمد تلك الاستراتيجيات على مناهج بيانية ثابتة.

لذا، جاء فريق من الباحثين بمبادرة ثورية تُسمى ASTOR، وهو إطار العمل الجديد للتعلم المعزز متعدد المهام عبر التوجيه المعتمد على المنفعة. يعتمد هذا النظام على مفهوم المنفعة الخاصة بكل مهمة، ويقوم بالتقاط إمكانات التعلم لكل مهمة وتعاونها مع المهام الأخرى.

يتألف ASTOR من وحدتين مترابطتين:
1. وحدة جدولة البيانات عبر المنفعة الهيكلية: تقوم بتوزيع ميزانية التدريب بشكل هرمي وتحديد أولويات التعليقات المفيدة، مما يوجه التدريب نحو البيانات الأكثر قيمة.
2. وحدة تحسين السياسات المعتمدة على المنفعة القابلة للتكيف: تقوم بتعديل قيود التدريج (KL regularization) لكل مهمة بشكل ديناميكي، مما يتناسب مع حالة التدريب الحالية لكل مهمة.

أظهرت التجارب التي أجريت على نموذجين شائعين (LLMs) في أربع مهام برمجية ممثلة أن ASTOR حسّن بشكل مستمر أداء النموذج الواحد عبر جميع المهام، متفوقًا على أفضل المتخصصين الآخرين بنسبة تتراوح بين 9.0% و9.5% وتجاوز أقوى المعايير الحالية لـ MTRL بنسبة تتراوح بين 7.5% و12.8%.

تعد هذه التحسينات في الأداء دليلاً على فاعلية اتخاذ نهج موحد ومتكامل، مما يفتح آفاق جديدة لتحسين نماذج البرمجة في المستقبل.