في عالم الذكاء الاصطناعي، يواجه العلماء تحديات كبيرة تتعلق بكفاءة أداء نماذج اللغة الكبيرة (Large Language Models) أثناء عملية التخصيص المتقدمة. وقد أظهرت الأبحاث أن كفاءة عملية التخصيص هذه تعتمد بشكل كبير على كيفية توزيع ميزانية التدريب بين مجموعة متنوعة من المهام. في كثير من الأحيان، يتم استخدام استراتيجيات بسيطة وثابتة (مثل أخذ عينات متساوية أو متناسبة مع الحجم) والتي تتجاهل التفاعلات بين المهام، مما يؤدي إلى تدهور الأداء وإهدار الجهد على مصادر غير فعالة.

للتغلب على هذه التحديات، تم تقديم إطار عمل مبتكر يسمى TaskPGM. يقوم هذا الإطار بتعلم مزيج مستمر من المهام من خلال نموذج يعتمد على الطاقة. يتم تكوين المهام على أنها عقد في حقل عشوائي ماركوفي، حيث تعكس الطاقة الأحادية (unary potential) فائدة كل مهمة على حدة، في حين يتم ترميز العلاقات بين المهام باستخدام انحرافات سلوكية تُحتسب من التوزيعات التنبؤية للنماذج المخصصة لكل مهمة على حدة، مثل انحراف جانسن-شانون (Jensen-Shannon Divergence) والمعلومات المشتركة النقطة (Pointwise Mutual Information).

من خلال تحسين هذا الهدف، يتم الحصول على مزائج متوازنة بين نطاق التغطية والتكرار. وُجد أن دالة المجموعة الناتجة تعتبر ضعيفة شبه النمط (weakly submodular) تحت قيود الميزانية، مما يوفر ضمانات تقريبية للاختيارات التقديرية. في اختبارات شاملة لمجموعات متعددة من النماذج (مثل LLaMA-7B و Qwen2-7B) ومجموعات تقييم متنوعة (مثل BIG-Bench Hard)، أظهر TaskPGM تحسينات كبيرة مقارنة بالاستراتيجيات التقليدية، بالإضافة إلى توفير هيكل قابل للتفسير لعلاقات المهام.

ما رأيكم في هذا التطور الثوري في مجال نماذج الذكاء الاصطناعي؟ شاركونا في التعليقات.