تتميز [نماذج اللغات](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)) [متعددة الوسائط](/tag/متعددة-الوسائط) ([MLLMs](/tag/mllms)) بقدرتها الاستثنائية على [الأداء](/tag/الأداء) [عبر](/tag/عبر) مجموعة متنوعة من المجالات، لكنها غالبًا ما تعاني من قلة [الكفاءة](/tag/الكفاءة) أثناء عملية [التدريب](/tag/التدريب). يعود السبب الرئيسي وراء ذلك إلى العديد من العمليات الحسابية المكررة الناتجة عن طول تسلسلات المدخلات من [البيانات](/tag/البيانات) [متعددة الوسائط](/tag/متعددة-الوسائط) والاستخدام الناقص للعمليات بين الطبقات. يعتمد هذا التكرار على مراحل [التدريب](/tag/التدريب) المختلفة، مما يشير إلى وجود فرصة كبيرة للتحسين.
استنادًا إلى هذه الملاحظة، قدم الباحثون إطار [عمل](/tag/عمل) تدريبي [جديد](/tag/جديد) يُعرف باسم نظام [التدريب](/tag/التدريب) النادر (Sparse Training Scheme - STS). يهدف هذا النظام إلى تعزيز [كفاءة التدريب](/tag/[كفاءة](/tag/كفاءة)-[التدريب](/tag/التدريب)) من خلال استخدام [تمثيلات](/tag/تمثيلات) نادرة تتلاءم مع مصادر التكرار المختلفة خلال مراحل [التدريب](/tag/التدريب). بدلاً من استخدام [استراتيجية](/tag/استراتيجية) كثافة موحدة، يعتمد نظام STS تصميمًا واعيًا للمرحلة، مما يسهم في [تحسين الأداء](/tag/[تحسين](/tag/تحسين)-[الأداء](/tag/الأداء)) بشكل ملحوظ.
تتألف هذه الإطار من مكونين متكاملين؛ الأول هو مصغر الرموز البصرية (Visual Token Compressor)، الذي يعمل على تقليل الحمولة [المعلوماتية](/tag/المعلوماتية) من خلال [ضغط الرموز](/tag/ضغط-الرموز) البصرية أثناء [محاذاة](/tag/محاذاة) الأنماط، مما يسمح بتدريب أكثر [كفاءة](/tag/كفاءة). أما الثاني، فهو المتخطى الديناميكي للطبقات (Layer Dynamic Skipper)، الذي يخفف من العبء الحسابي من خلال [تخطي الطبقات](/tag/تخطي-الطبقات) غير الضرورية بشكل ديناميكي خلال عملية [تخصيص التعليم](/tag/[تخصيص](/tag/تخصيص)-[التعليم](/tag/التعليم)).
تم اختبار هذا النظام على مجموعة متنوعة من [معمارية](/tag/معمارية) [نماذج اللغات](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)) متعددة الوسائط، وأثبت فعاليته وكفاءته من خلال العديد من الاختبارات المرجعية. مع تقديم هذه الحلول المبتكرة، يبدو أن [مستقبل](/tag/مستقبل) [تدريب [النماذج](/tag/النماذج) اللغوية](/tag/[تدريب](/tag/تدريب)-[النماذج](/tag/النماذج)-اللغوية) [متعددة الوسائط](/tag/متعددة-الوسائط) أكثر إشراقًا من أي وقت مضى!
تعزيز كفاءة تدريب نماذج اللغات متعددة الوسائط من خلال تكييف الكثافة التدريبية!
أطلق الباحثون إطار عمل مبتكر يسمى نظام التدريب النادر (STS) لتحسين كفاءة تدريب نماذج اللغات متعددة الوسائط (MLLMs). يهدف هذا النظام إلى تقليل التكرار غير الضروري في عمليات التدريب، مما يزيد من السلاسة والفاعلية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
