في ظل التطورات السريعة في تقنيات التعليم المسبق، أصبح من الضروري التكيّف مع نماذج الرؤية واللغة الكبيرة (Vision-Language Models) لتحسين فهم الفيديو. يعد التعلم من الصورة إلى الفيديو استراتيجية شائعة ومتقدمة في هذا السياق.

لكن لا تخلو نماذج Mixture-of-Experts التقليدية من العيوب، حيث تعاني من تجانس الخبراء، مما يؤدي إلى عدم فعالية في تعلم الميزات المكانية والزمانية من تدفقات الفيديو غير المتمايزة. هنا يأتي دور VidPrism، وهو إطار عمل مبتكر يقدم نموذجًا غير متجانس للخبراء الزمانيين.

تسهم VidPrism في تحسين أداء نماذج الرؤية واللغة من خلال تقسيم المهام، حيث يقوم كل خبير بدور محدد يستهدف الفهم المكاني أو النمذجة الزمنية. ولتغذية هؤلاء الخبراء بشكل فعال، تم تقديم وحدة عينة متعددة المعدلات وواعية بالمحتوى، التي تولد تدفقات تمثل السمات الغنية أو تركز على الحركة.

وعلاوة على ذلك، يوفر نموذج دمج ثنائي الاتجاه ديناميكي تبادل معلومات فعال بين هذه المسارات، مما يسهم في تكوين تمثيل شامل للفيديو. تظهر التجارب الواسعة على معايير التعرف على الفيديو أن VidPrism يحصد نتائج رائدة في هذا المجال ويعزز من تخصص الخبراء.

إذا كنت مهتمًا بقراءة المزيد، يمكنك الاطلاع على الشيفرة المصدرية عبر هذا الرابط.