أحدثت تقنية التحسين من الجيل الجديد GRZO (Group-Relative Zeroth-Order) ضجة في مجال نماذج اللغة الكبيرة، حيث تمثل بديلاً ذا كفاءة عالية وأثر بيئي منخفض عن أساليب التعليم التقليدية، مثل التراجع العكسي (Backpropagation). يعتمد هذا الأسلوب على تحسين صفرّي (Zeroth-order optimization) الذي يشتهر بقدرته على تقليل استخدام الذاكرة، مما يجعله مثاليًا لتطبيقات الذكاء الاصطناعي على نماذج بحجم كبير.
بينما كانت تواجه تقنيات التحسين التقليدية تحديات كبيرة مثل ارتفاع تباين تقدير التدرج، قدمت GRZO حلاً مبتكرًا، حيث تعتمد على تعرض كل مثال من الدفعة (Mini-batch) لتداخل زائف مستقل، مما يسمح بجمع الخسائر بشكل متناسب مع مجموعات محددات مماثلة، مما يمنح تحسين الاتجاه الفعال لمجموعة كاملة من الأمثلة دون إضافة أي تكلفة إضافية على العمليات الأمامية، مع الحفاظ على مستوى استخدام الذاكرة خلال عملية الاستدلال.
أثبتت الأبحاث أن GRZO ليس فقط خاليًا من التحيز في الاتجاه، بل إن تناقص التباين يستجيب بشكل نسبي لحجم الدفعة، مما ينتج عنه حدود تقارب أكثر صرامة في المشاكل غير المحدبة عند مقارنتها بأساليب MeZO السابقة.
عند تقييم أداء GRZO على نماذج مثل RoBERTa-large، Llama3-8B وOPT-13B عبر عدة مهام، أظهرت النتائج تحسناً ملحوظًا في الدقة، حيث زادت الدقة المتوسطة لـ Llama3-8B بمقدار 3 نقاط عن أساليب MeZO الأخرى مع انخفاض بنسبة 23% في ذروة الذاكرة المستخدمة في وحدات معالجة الرسوميات (GPU). كحل بديل لجوهر MeZO، كانت هناك أيضًا تحسنات ملحوظة على النسخ الضعيفة، منخفضة الترتيب، والمعدلة زمنيًا من نماذج Zeroth-order، حيث شهدت زيادة متوسطة وصلت إلى 6 نقاط في النتائج.
تحسينات ثورية في نماذج اللغة مع GRZO: الأمثل الجماعي لتخفيف الفقد
توفر تقنية GRZO تحسينًا مذهلاً لعملية ضبط نماذج اللغة الكبيرة. من خلال تقنيات متقدمة، تضمن تقليل الذاكرة وزيادة الدقة بشكل غير مسبوق.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
