يعد تدريب نماذج اللغة الكبيرة (Large Language Models) باستخدام تقنيات الكمّ مثل FP4 خطوة مبتكرة نحو توفير الذاكرة والقدرة الحاسوبية. ومع ذلك، فإن هذه العملية تواجه تحديات غير متوقعة تتعلق بظواهر التحيز المتوسط.
في دراسة جديدة، تم تسليط الضوء على آثار التحفيزات الخارجة عن المألوف والظواهر التي تحيط بها، حيث يتسبب التحيز المتوسط القوي في تضخيم مخرجات النموذج وزيادة الفجوات في الأداء. يُظهر التحليل أن الأبعاد الرئيسية لهذه الظواهر ليست مجرد أحداث عشوائية، بل تنشأ بشكل رئيسي من تأثيرات التحيز المتوسط.
لذا، تم تقديم طريقة جديدة تُدعى Averis، التي تعتمد على فصل المكونات المتوسطة باستخدام تقنيات التخفيف قبل تطبيق تقنيات الكمّ (quantization). توضح النتائج أن Averis تستطيع تقليل فجوات خسائر الأداء مقارنة بتقنيات أخرى مع تحسين استقرار التدريب.
أظهرت اختبارات استخدام نماذج Qwen3 0.6B وQwen3 7B أن استخدام Averis يمكّن من تحقيق نتائج مثيرة بفضل قدرته على تحسين الأداء مع الحفاظ على الكفاءة. يُضاف إلى ذلك، أن طريقة Averis لا تتطلب سوى نسبة 2.20% من الإنفاق الزائد على العملية، مما يجعلها خيارًا مثاليًا للتدريب القائم على التقنيات القليلة التكلفة.
وختامًا، تعكس هذه الاكتشافات أهمية إدارة التحيز المتوسط وتوضح كيف أن الابتكارات الجديدة مثل Averis يمكن أن تُحدث فرقًا كبيرًا في تطور نماذج اللغة الكبيرة. ما رأيكم في هذا التطور؟ شاركونا في التعليقات!
إدارة التحيز المتوسط: الحل الثوري لتحسين تدريب نماذج اللغة الكبيرة
تكشف دراسة جديدة عن أهمية إدارة التحيز المتوسط في تدريب نماذج اللغة الكبيرة (LLMs) وكيف يمكن استخدام طريقة Averis لتحقيق نتائج أفضل. تقدم هذه الطريقة حلاً فعالاً للتحديات المرتبطة بتقنيات الكمّ بفضل تحسين أداء النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
