في عالم الذكاء الاصطناعي، تُعد نماذج اللغات الضخمة (Large Language Models) إحدى أبرز الابتكارات التي شهدها العقد الماضي. ومع تزايد الحاجة إلى كفاءة الأداء في هذه النماذج، أصبح تقليمها (Pruning) بعد التدريب وسيلة فعالة للوصول إلى مستوى عالٍ من الكفاءة. ولكن، ما تأثير مصدر بيانات التهيئة (Calibration Data) في هذه العملية؟
تشير الأبحاث الأخيرة إلى أن اختيار مصدر بيانات التهيئة له تأثير متواضع على دقة الأداء معدل بعد التقليم. لكن، ماذا يحدث عند تحليل تأثير التهيئة بشكل منفصل على أبعاد القدرة المختلفة؟
قام الباحثون بتفكيك القدرة بعد التقليم إلى أربعة أبعاد رئيسية: العامة (General)، الفطرة السليمة (Commonsense)، البرمجة (Code)، والرياضيات (Math). ولقياس تأثير مختلف مصادر التهيئة وعددها 15، استخدموا ارتباطات سبيرمان بين مقاييس معلومات OIT ومعدل الاحتفاظ لكل بُعد. ووجدوا مفارقة مثيرة: بينما كانت تغيرات التهيئة ترتبط إيجابياً مع الاحتفاظ في الأبعاد العامة، كانت لها تأثيرات سلبية على أداء الأبعاد الرياضية والبرمجية.
هذا يعني أن مصدرًا واحدًا لا يمكنه الحفاظ على جميع القدرات بشكل متساوٍ. لذا، تم اقتراح طريقة دمج متعددة المصادر، تُعرف بروتوكول IGSP (Information-Guided Self-Calibration Protocol)، الذي يُحسن من بناء البيانات عبر مصادر متعددة من دون الحاجة إلى مجموعات بيانات متوافقة مع القدرات، من خلال تقليل التجميع القائم على 4-غرام وتحقيق توازن في التعقيد.
في تجربة على نموذج LLaMA-3.1-8B تم استخدام SparseGPT مع كثافة 60%، تمكنت الخلطة الموحدة لمصادر متعددة من تحقيق احتفاظ إجمالي بنسبة 58.8%، متفوقةً على أفضل مصدر فردي (MetaMath) بنسبة 50.0% وعلى C4 الافتراضي بنسبة 40.0%. كما أظهر بروتوكول IGSP تحسينات ملحوظة مقارنة بأساليب سابقة مثل Self-Cal وSGS.
إن هذه النتائج تعزز فكرة أن دمج المصادر المتعددة يتطلب أخذ أبعاد القدرة المختلفة بعين الاعتبار، مما يعد خطوة هامة نحو تحسين الأداء في نماذج اللغات الضخمة.
ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
تحديات توازن بيانات التهيئة: لماذا يُعتبر دمج المصادر المتعددة حاسماً في تقليم نماذج اللغات الضخمة؟
تتناول هذه الدراسة تأثير دمج مصادر بيانات التهيئة في تحسين أداء نماذج اللغات الضخمة بعد التقليم. النتائج تكشف عن تباينات مثيرة بين جوانب الأداء المختلفة، مما يسلط الضوء على أهمية اختيار المصادر بعناية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
