في عالم نماذج اللغات الضخمة (VLMs)، يسعى الباحثون دائماً لتحقيق كفاءة استدلال أفضل. إحدى الأدوات التقليدية في هذا المجال تشمل تقنيات مثل التقطيع (distillation) والتقليل (pruning) والتكميم (quantization)، ولكن يبدو أن هناك عنصراً مهماً يُغفل عنه ألا وهو الاختصار.
بحث جديد يطرح فكرة أن "الدقة في الاختصار" قد تكون العامل المفقود لتعزيز كفاءة الاستدلال. إذ ركزت الدراسة على كيفية تحسين كفاءة النماذج من خلال البيانات المدخلة ذات الطول القصير والدقيق. فعندما يتلقى النموذج تعليمات أو بيانات مركّزة، يمكنه تقديم إجابات دقيقة باستخدام عدد أقل من الرموز، مما يقلل من تكلفة الاستجابة (Cost-of-Pass).
تطبيقًا لذلك، تم استخدام خط أنابيب تنسيق البيانات الخاص بهم على مجموعة بيانات MAmmoTH-VL لفحص أداء النماذج. أظهرت النتائج أن النموذج المدرب على بيانات مختصرة يتمتع بميزة قدرتها 35 ضعفًا في كفاءة الاستجابة مقارنةً بأكثر النماذج تفصيلاً، مع الاحتفاظ بدقة قريبة جداً من الأداء.
على سبيل المثال، تفوقت النماذج المختصرة بحوالي 17.55 نقطة مئوية في دقة طول الإجابات مقارنة بالنموذج غير المنسق. وهذا يعد تقدمًا يتزايد مع زيادة حجم النموذج، ما يثير اهتمام الباحثين حول كيفية تأثير جودة البيانات على الأداء العام للنماذج.
في النهاية، يتضح أن تحقيق كفاءة استدلال فعالة يعتمد على القدرة على معالجة كل رمز بصورة دقيقة، وأن تحسين بيانات التدريب يمكن أن يكون مفتاح النجاح في هذا المجال.
هل يمكن أن تكون الدقة في الاختصار مفتاح كفاءة الاستدلال في نماذج اللغات الضخمة؟
تشير دراسة جديدة إلى أن تحسين كفاءة الاستدلال في نماذج اللغات الضخمة (VLMs) قد يتحقق من خلال تحسين دقة البيانات المدخلة. الاختصار في بيانات التدريب يجعل النماذج تستجيب بجودة عالية وفي عدد أقل من الرموز.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
