في عالم الذكاء الاصطناعي، تُعَدّ عملية تحسين تركيبة بيانات التدريب عنصرًا أساسيًا لنجاح نماذج اللغات الضخمة (Large Language Models). تقدم الدراسة الجديدة المعنونة "AC-ODM: Actor--Critic Online Data Mixing" نهجًا مبتكرًا من خلال دمج الأساليب المعتمدة على التعلم المعزز (Reinforcement Learning).
تستغل تقنية AC-ODM خوارزميات متقدمة لتعزيز كفاءة التدريب، حيث تحاكي عملية خلط البيانات من منظور يتجاوز الطرق التقليدية. بينما تحصد الأساليب الديناميكية فوائد التنقل بين ديناميكيات التدريب المتغيرة، تعاني الطرق الحالية من عدم التوافق بين الكفاءة الحاسوبية والكفاءة في استخدام العينات. تقدم AC-ODM، بفضل سياستها المعتمدة على التعلم المعزز، وسيلة فعالة لتحسين الأداء من خلال تحقيق تداخل بناء بين التدرجات التعليمية.
يتميز AC-ODM بمرونته العالية حيث يدعم وضعين تشغيليين: الأول، وضع البروكسي الذي يسمح باستخدام بيانات مُعدة مسبقًا مع نقل السياسات من نماذج أصغر إلى أهداف أكبر، والثاني، الوضع غير البروكسي الذي يتيح التدريب المباشر من الصفر دون الحاجة إلى بيانات سابقة.
وفقًا للتجارب، فإن AC-ODM يتفوق بشكل كبير على الأساليب السابقة، حيث يحقق تحسينات ملحوظة في سرعة التقارب ودقة النتائج عبر مختلف العمارة. على نموذج Pythia-1B، تم الوصول إلى أفضل مستوى من التدريب باستخدام 66% أقل من خطوات التدريب مقارنة بالمعايير المنافسة، مما أدى إلى تحسين دقة MMLU بنسبة 27.5% وزيادة نسب النجاح في اختبار HumanEval بمعدل 2.23x، مع الحفاظ على زيادة ضئيلة للغاية في الوقت اللازم لكل خطوة (0.4%) وزيادة طفيفة فقط في الذاكرة (2%). في حال كنت مهتمًا بالتعرف على كيفية تطوير مثل هذه التقنيات، يمكنك الاطلاع على الرمز البرمجي المتاح في [رابط GitHub].
ثورة جديدة في تدريب نماذج الذكاء الاصطناعي: AC-ODM يحقق قفزات نوعية برفع كفاءة التدريب!
تقدم تقنية AC-ODM نهجاً جديداً لتحسين تركيبة بيانات التدريب لنماذج اللغات الضخمة (LLMs)، مما يساهم في تسريع دقة النموذج وكفاءته. النتائج تظهر تفوقها على الطرق التقليدية مع تحسينات ملحوظة في دقة الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
