تتميز [نماذج اللغات](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)) [متعددة الوسائط](/tag/متعددة-الوسائط) ([MLLMs](/tag/mllms)) بقدرتها الاستثنائية على [الأداء](/tag/الأداء) [عبر](/tag/عبر) مجموعة متنوعة من المجالات، لكنها غالبًا ما تعاني من قلة [الكفاءة](/tag/الكفاءة) أثناء عملية [التدريب](/tag/التدريب). يعود السبب الرئيسي وراء ذلك إلى العديد من العمليات الحسابية المكررة الناتجة عن طول تسلسلات المدخلات من [البيانات](/tag/البيانات) [متعددة الوسائط](/tag/متعددة-الوسائط) والاستخدام الناقص للعمليات بين الطبقات. يعتمد هذا التكرار على مراحل [التدريب](/tag/التدريب) المختلفة، مما يشير إلى وجود فرصة كبيرة للتحسين.

استنادًا إلى هذه الملاحظة، قدم الباحثون إطار [عمل](/tag/عمل) تدريبي [جديد](/tag/جديد) يُعرف باسم نظام [التدريب](/tag/التدريب) النادر (Sparse Training Scheme - STS). يهدف هذا النظام إلى تعزيز [كفاءة التدريب](/tag/[كفاءة](/tag/كفاءة)-[التدريب](/tag/التدريب)) من خلال استخدام [تمثيلات](/tag/تمثيلات) نادرة تتلاءم مع مصادر التكرار المختلفة خلال مراحل [التدريب](/tag/التدريب). بدلاً من استخدام [استراتيجية](/tag/استراتيجية) كثافة موحدة، يعتمد نظام STS تصميمًا واعيًا للمرحلة، مما يسهم في [تحسين الأداء](/tag/[تحسين](/tag/تحسين)-[الأداء](/tag/الأداء)) بشكل ملحوظ.

تتألف هذه الإطار من مكونين متكاملين؛ الأول هو مصغر الرموز البصرية (Visual Token Compressor)، الذي يعمل على تقليل الحمولة [المعلوماتية](/tag/المعلوماتية) من خلال [ضغط الرموز](/tag/ضغط-الرموز) البصرية أثناء [محاذاة](/tag/محاذاة) الأنماط، مما يسمح بتدريب أكثر [كفاءة](/tag/كفاءة). أما الثاني، فهو المتخطى الديناميكي للطبقات (Layer Dynamic Skipper)، الذي يخفف من العبء الحسابي من خلال [تخطي الطبقات](/tag/تخطي-الطبقات) غير الضرورية بشكل ديناميكي خلال عملية [تخصيص التعليم](/tag/[تخصيص](/tag/تخصيص)-[التعليم](/tag/التعليم)).

تم اختبار هذا النظام على مجموعة متنوعة من [معمارية](/tag/معمارية) [نماذج اللغات](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)) متعددة الوسائط، وأثبت فعاليته وكفاءته من خلال العديد من الاختبارات المرجعية. مع تقديم هذه الحلول المبتكرة، يبدو أن [مستقبل](/tag/مستقبل) [تدريب [النماذج](/tag/النماذج) اللغوية](/tag/[تدريب](/tag/تدريب)-[النماذج](/tag/النماذج)-اللغوية) [متعددة الوسائط](/tag/متعددة-الوسائط) أكثر إشراقًا من أي وقت مضى!