يشهد عالم الذكاء الاصطناعي تحولاً ملحوظاً مع اقتراب مختبرات هذه التقنية من سقف البيانات المتاحة، حيث تتفوق قدرة الحوسبة على معدل إنتاج النصوص عالية الجودة. في هذا الإطار، بدأ تدريب نماذج اللغة (Language Models) يتجه نحو نظام يعتمد على البيانات المحدودة مع توفير وفرة في الحوسبة، مما يتطلب تدريباً متعدد المراحل على قواعد بيانات ثابتة.
ومع ذلك، يواجه هذا الأسلوب التقليدي مشكلة الإفراط في الملاءمة (Overfitting)، مما يؤدي إلى الوصول إلى أقصى أداء سريعاً ثم تدهور الأداء بمرور الوقت. للتصدي لهذه المشكلة، تم البحث في تقنية تعزيز البيانات كوسيلة فعالة لتخفيف الإفراط في الملاءمة وتسهيل تدريب نماذج اللغة لعدة فترات على نفس البيانات.
قُدمت ثلاث فئات مستقلة لتعزيز البيانات، تشمل:
1. **الضوضاء عند مستوى الرموز** (Token-Level Noise): مثل التمويه والاستبدال العشوائي.
2. **ترتيب التتابعات** (Sequence Permutations): استراتيجيات مثل التنبؤ من اليمين إلى اليسار وملء الفراغات في الوسط.
3. **تنبؤ الانزياح الهدف** ($x_{t+i}$ لـ $i > 1$).
من خلال تجارب منهجية، تبين أن استخدام التقنيات الفردية في تعزيز البيانات يؤخر الإفراط في الملاءمة ويقلل من الخسارة عند التحقق، بينما سجل استبدال الرموز العشوائي أفضل نتائج في ذلك. كما أظهرت التجارب أن دمج فئات التعزيز المختلفة يقلل من الحد الأدنى للخسارة عند التحقق، مما يعد بمثابة حل واعد ضد افتقار البيانات في تدريب نماذج اللغة.
للاطلاع على الكود والبيانات المستخدمة، يمكن زيارة GitHub.
ثورة في تدريب نماذج اللغة: تحسين الأداء من خلال تعزيز البيانات!
تسعى مختبرات الذكاء الاصطناعي إلى تجاوز قيود البيانات عبر تقنية تعزيز البيانات، مما يفتح آفاقاً جديدة لتدريب نماذج اللغة. هذه الاستراتيجية الجديدة تخفف من مشكلات الإفراط في الملاءمة وتسمح بتدريب أكثر إنتاجية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
