في عصر يشهد تزايدًا مذهلاً في قوة المعالجة الرقمية، أصبح التدريب متعدد العصور (Multi-Epoch Training) هو المعيار السائد. ومع ذلك، فإن تدريب نموذج فردي يصل إلى المستوى الأمثل بسرعة، قبل استنفاذ ميزانية الموارد المتاحة. لذا، قد حان الوقت لتغيير المفاهيم السائدة، والتحول نحو استكشاف تجميعة من النماذج المتنوعة.
في هذا السياق، قمنا بتقديم مفهوم 'المقدمة للفرط-عصر التدريب' (hyper-epoch pretraining)، والذي ينقل ميزانية التدريب متعددة العصور إلى مجموعة من النماذج المتنوعة. هذه النماذج، عندما يتم تجميع توقعاتها، تتمكن من تحقيق خطأ في التحقق أقل من النموذج الفردي المنقح.
هذا الأسلوب الجديد يعتمد على ثلاثة مكونات رئيسية. أولاً، يتم استخدام جدول دوري مع معدل تعلم متضاد وانخفاض الوزن لجمع نماذج متنوعة من مسارات متوازية. ثانيًا، تقلد العمليات (Chain Distillation) تدرب كل نموذج ضد سابقه، مما يجعل جودة النماذج تتراكم عبر المجموعة. ثالثًا، يُستخدم مبدأ الأولويات المتعلمة (Learned Prior) لتحديد وتقدير أعضاء النماذج لأي ميزانية استنتاج.
على نموذج يحتوي على 1.8 مليار بارامتر تم تدريبه على 100 مليون توكن FineWeb، يتطابق 'q0' مع نموذج قوي يعتمد على 256 دورة تدريبية، لكن باستخدام 56 دورة فقط (أي حوالي 4.6 مرات أقل). ولتحقيق نتائج أفضل، يتطلب الأمر فقط 67 دورة (حوالي 3.8 مرات أقل) عند مقارنة حجم النموذج. وتستمر النتائج في التحسن بما يتجاوز تلك التي حققها النموذج الفردي. إذاً، فإن هذه المكتسبات التي تصل إلى حوالي 12.9 مرة من كفاءة البيانات تحت الظروف البطيئة تُعزز من فعالية أداء النماذج في المهام اللاحقة.
ما يُثير الاهتمام هو أن التوزيع الأمثل يختلف وفقًا للميزانية، وبالتالي نقدم وصفات مفصلة حول كيفية استغلال الميزانية المحددة لزيادة مستوى العمومية، بدءًا من دورة واحدة وصولًا للميزانيات الأكبر.
إن هذه الدراسات تمثل خطوة كبيرة نحو تحسين أساليب التدريب في الذكاء الاصطناعي، وتعزز من إمكانية الوصول إلى نماذج أقوى وأكثر كفاءة. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
ثورة في التدريب: كيف يمكن لنماذج متعددة أن تتفوق على النموذج الفردي؟
يستعرض البحث الجديد مفهوم 'المقدمة للفرط-عصر التدريب'، الذي يسعى لتجاوز قيود التدريب التقليدي من خلال الجمع بين نماذج متعددة. هذه الهندسة الجديدة تعد بزيادة فعالية البيانات بشكل كبير.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
