في عالم تكنولوجيا المعلومات المتسارع، تحتل فهم الفيديوهات الطويلة مكانة متزايدة الأهمية، ومع ذلك، تواجه نماذج اللغة المتعددة الوسائط (Multimodal Language Models) العديد من التحديات. يقدم تقرير HY-Himmel أسلوبًا جديدًا يتجاوز تلك القيود من خلال استخدام تقنية التصنيف المتداخل.

تتمثل المشكلة الأساسية في هذه النماذج في التكاليف العالية المرتبطة بفك تشفير الإطارات الكثيفة من الفيديو، والنمو الرباعي للرموز (Token Growth) مع زيادة عدد الإطارات، وضعف إدراك الحركة عند أخذ عينات من الإطارات الرئيسية بشكل عشوائي. للتغلب على هذه العقبات، تعتمد HY-Himmel على إطار عمل هيراركي لفيديو-لغة، يقوم بتخصيص السعة الدلالية والحركية بشكل منفصل.

من خلال توجيه مجموعة صغيرة من الإطارات الرئيسية المتفرقة إلى نموذج فيجن ترانسفورمر (Vision Transformer) المكلف، يتم تحديد هوية الأجسام وتصميم المشهد بشكل أكثر دقة. بعد ذلك، تتولى وحدة ثلاثية التدفقات خفيفة الوزن معالجة الفواصل بين الإطارات، حيث تقوم باستخلاص دليل الحركة من خرائط متجهات الحركة (Motion-Vector Maps) والخرائط المتبقية وسياق الإطارات الرئيسية وتحويلها إلى رموز حركية متوافقة.

تُحقّق HY-Himmel تحسينات ملحوظة، حيث تفوقت على معايير الإطارات الكثيفة بزيادة تصل إلى 2.3 نقطة مئوية، مما يدل على أنها تستخدم 3.6 أضعاف أقل من الرموز السياقية.

أثبتت الاختبارات المكثفة لعدة عوامل بما في ذلك تكوين التيار ونوع وحدة تشفير الحركة وأهداف المحاذاة أن النسخة الكاملة من النموذج الثلاثي التدفقات ضرورية لتحقيق المكاسب الملاحظة.

إن HY-Himmel تمثل خطوة كبيرة نحو تحسين فهم الفيديوهات الطويلة وتدعم قوة الذكاء الاصطناعي في معالجة البيانات المعقدة بشكل أكثر كفاءة. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.