تتميز نماذج اللغات متعددة الوسائط (MLLMs) بقدرتها الاستثنائية على الأداء عبر مجموعة متنوعة من المجالات، لكنها غالبًا ما تعاني من قلة الكفاءة أثناء عملية التدريب. يعود السبب الرئيسي وراء ذلك إلى العديد من العمليات الحسابية المكررة الناتجة عن طول تسلسلات المدخلات من البيانات متعددة الوسائط والاستخدام الناقص للعمليات بين الطبقات. يعتمد هذا التكرار على مراحل التدريب المختلفة، مما يشير إلى وجود فرصة كبيرة للتحسين.
استنادًا إلى هذه الملاحظة، قدم الباحثون إطار عمل تدريبي جديد يُعرف باسم نظام التدريب النادر (Sparse Training Scheme - STS). يهدف هذا النظام إلى تعزيز كفاءة التدريب من خلال استخدام تمثيلات نادرة تتلاءم مع مصادر التكرار المختلفة خلال مراحل التدريب. بدلاً من استخدام استراتيجية كثافة موحدة، يعتمد نظام STS تصميمًا واعيًا للمرحلة، مما يسهم في تحسين الأداء بشكل ملحوظ.
تتألف هذه الإطار من مكونين متكاملين؛ الأول هو مصغر الرموز البصرية (Visual Token Compressor)، الذي يعمل على تقليل الحمولة المعلوماتية من خلال ضغط الرموز البصرية أثناء محاذاة الأنماط، مما يسمح بتدريب أكثر كفاءة. أما الثاني، فهو المتخطى الديناميكي للطبقات (Layer Dynamic Skipper)، الذي يخفف من العبء الحسابي من خلال تخطي الطبقات غير الضرورية بشكل ديناميكي خلال عملية تخصيص التعليم.
تم اختبار هذا النظام على مجموعة متنوعة من معمارية نماذج اللغات متعددة الوسائط، وأثبت فعاليته وكفاءته من خلال العديد من الاختبارات المرجعية. مع تقديم هذه الحلول المبتكرة، يبدو أن مستقبل تدريب النماذج اللغوية متعددة الوسائط أكثر إشراقًا من أي وقت مضى!
تعزيز كفاءة تدريب نماذج اللغات متعددة الوسائط من خلال تكييف الكثافة التدريبية!
أطلق الباحثون إطار عمل مبتكر يسمى نظام التدريب النادر (STS) لتحسين كفاءة تدريب نماذج اللغات متعددة الوسائط (MLLMs). يهدف هذا النظام إلى تقليل التكرار غير الضروري في عمليات التدريب، مما يزيد من السلاسة والفاعلية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
