تتميز نماذج اللغات متعددة الوسائط (MLLMs) بقدرتها الاستثنائية على الأداء عبر مجموعة متنوعة من المجالات، لكنها غالبًا ما تعاني من قلة الكفاءة أثناء عملية التدريب. يعود السبب الرئيسي وراء ذلك إلى العديد من العمليات الحسابية المكررة الناتجة عن طول تسلسلات المدخلات من البيانات متعددة الوسائط والاستخدام الناقص للعمليات بين الطبقات. يعتمد هذا التكرار على مراحل التدريب المختلفة، مما يشير إلى وجود فرصة كبيرة للتحسين.

استنادًا إلى هذه الملاحظة، قدم الباحثون إطار عمل تدريبي جديد يُعرف باسم نظام التدريب النادر (Sparse Training Scheme - STS). يهدف هذا النظام إلى تعزيز كفاءة التدريب من خلال استخدام تمثيلات نادرة تتلاءم مع مصادر التكرار المختلفة خلال مراحل التدريب. بدلاً من استخدام استراتيجية كثافة موحدة، يعتمد نظام STS تصميمًا واعيًا للمرحلة، مما يسهم في تحسين الأداء بشكل ملحوظ.

تتألف هذه الإطار من مكونين متكاملين؛ الأول هو مصغر الرموز البصرية (Visual Token Compressor)، الذي يعمل على تقليل الحمولة المعلوماتية من خلال ضغط الرموز البصرية أثناء محاذاة الأنماط، مما يسمح بتدريب أكثر كفاءة. أما الثاني، فهو المتخطى الديناميكي للطبقات (Layer Dynamic Skipper)، الذي يخفف من العبء الحسابي من خلال تخطي الطبقات غير الضرورية بشكل ديناميكي خلال عملية تخصيص التعليم.

تم اختبار هذا النظام على مجموعة متنوعة من معمارية نماذج اللغات متعددة الوسائط، وأثبت فعاليته وكفاءته من خلال العديد من الاختبارات المرجعية. مع تقديم هذه الحلول المبتكرة، يبدو أن مستقبل تدريب النماذج اللغوية متعددة الوسائط أكثر إشراقًا من أي وقت مضى!