في عالم الذكاء الاصطناعي، تعتبر نماذج اللغات الكبيرة (Large Language Models) أحد أبرز الابتكارات، إذ تُستخدم هذه النماذج لتحليل ومعالجة كميات هائلة من البيانات. ومع ذلك، تواجه هذه النماذج تحديات كبيرة نتيجة نقص البيانات عالية الجودة. تمثل تقنيات التدريب القائمة على المنهاج (curriculum-based pretraining) طريقة واعدة للتغلب على هذه المشكلة، حيث يتم تدريب النماذج على بيانات مرتبة تصاعديًا وفقًا لمعايير الجودة.

ومع ذلك، وعلى الرغم من الجهود المبذولة، أظهرت الدراسات السابقة أن تحسينات الأداء الناتجة عن هذه التقنية كانت محدودة. تشير الأبحاث الأخيرة إلى وجود عامل حاسم يحد من فعالية هذه الأساليب، وهو عدم التوافق بين ترتيب جودة البيانات المتزايد ومنحنى انخفاض معدل التعلم (Learning Rate).

وجد الباحثون أن التدريب القائم على المنهاج يتفوق بشكل كبير على خلط البيانات العشوائي عند استخدام معدل تعلم ثابت، ولكن تفقد هذه الميزة تحت جداول انخفاض معدل التعلم التقليدية. لتجاوز هذا التحدي، قدم الفريق استراتيجيتين بسيطتين:

1. استخدام جدول معدل تعلم أكثر اعتدالًا بحيث يكون المعدل النهائي أقل قليلاً فقط من المعدل الأعلى.
2. استبدال انخفاض معدل التعلم بمتوسط النموذج، وهو حساب متوسط مرجح لأحدث نقاط التحقق.

باستخدام هاتين الاستراتيجيتين، تمكن الباحثون من تحسين الأداء بمتوسط 1.64% على مجموعة من مؤشرات الأداء القياسية، دون الحاجة إلى تحسين إضافي للبيانات. هذه النتائج تُظهر أهمية إعادة تقييم تقنيات التدريب القائم على المنهاج وتفتح آفاقًا جديدة لتصميم مناهج بيانات متكاملة مع أساليب التحسين.

ما رأيكم في هذه الاستراتيجيات الجديدة لتحسين أداء نماذج اللغات الكبيرة؟ شاركونا تجاربكم وآرائكم في التعليقات!