في عصر الذكاء الاصطناعي الحديث، تحظى نماذج اللغات الضخمة (Large Language Models) بتدريب متنوع يشمل المهام مثل الترجمة، توليد الأكواد، التفكير الرياضي، وتوقع النصوص. لكن كيف يمكننا قياس تأثير كل مهمة من مهمات التدريب على أداء المهمة المستهدفة؟ هذه هي القضية التي يشار إليها بموضوع "نسبة المهام" (task attribution).

تقدم الطرق التقليدية مثل إعادة التدريب مع إزالة أحد المهام، قياسًا مباشرًا لتأثير كل مهمة، لكنها غير فعالة من الناحية الحسابية عند تطبيقها على نطاق واسع. لذا، برزت طرق بديلة تستخدم نماذج surrogate لمراقبة أداء المهمة المستهدفة بناءً على أي مجموعة فرعية من المهام التدريبية. ويركز البحث السابق بشكل عام على نماذج خطية، والتي تلتقط العلاقات من الدرجة الأولى لكنها قد تفشل في فهم التفاعلات غير الخطية مثل تأثيرات XOR.

في الدراسة الجديدة، تم تقديم إطار موحد لتوزين المهام (task-weighting) لفهم طرق نسبة المهام، مما يخلق صلة جديدة بين نماذج surrogate الخطية ووظائف التأثير من خلال التحليل من الدرجة الثانية. كما تم إدخال نماذج التقدير الأساسية (kernel surrogate models) التي تمثل بشكل أكثر فعالية التفاعلات بين المهام من الدرجة الثانية.

لتمكين تعلم هذا النموذج بكفاءة، تم تطوير إجراء تقدير قائم على التدرج يستخدم تقديرًا من الدرجة الأولى لنماذج مدربة مسبقًا، مما أدى إلى نتائج دقيقة مع خطأ نسبي أقل من 2% دون الحاجة إلى إعادة التدريب المتكرر. أظهرت التجارب في مجموعة من الإعدادات - بما في ذلك التفكير الرياضي في نماذج الـ Transformers، التعلم داخل السياق، والتعلم التعزيزي متعدد الأهداف - فعالية نماذج التقدير الأساسية، حيث حققت زيادة قدرها 25% في الترابط مع الإحصائيات الطبيعية مقارنة بالنماذج الخطية ونماذج وظائف التأثير، مما يسمح بنسب أكثر دقة وقابلية للتوسع. وعند استخدامها في اختيار البيانات المستقبلية، أظهرت نماذج التقدير الأساسية تحسينًا بنسبة 40% في النتائج المذكورة.

يمكن أن تكون هذه الإنجازات خطوة هامة نحو تحسين العمليات في الذكاء الاصطناعي، مما يسهم في تحقيق نتائج أفضل في مختلف التطبيقات. ما رأيكم في هذا التطور المثير؟ شاركونا في التعليقات!