يتجه فهم الفيديو نحو عقدة جديدة، حيث لم يعد من الممكن الاكتفاء بتحليل مقطع فيديو كامل بعد الانتهاء منه. بل أصبحت الحاجة ملحة إلى استراتيجيات تفاعلية تتيح للنموذج استيعاب الإطارات الجديدة أثناء طرح الإجابات، ومراجعة استجاباته مع ظهور أدلة جديدة، والبقاء صامتاً عندما لا يكون هناك ما يُقال. هنا يظهر مفهوم موس-فيديو (MOSS-Video-Preview) كخطوة رائدة نحو هذا الاتجاه.
يدعي الباحثون أن فهم الفيديو يجب أن لا يُعوقه عملية التوليد، وأن الهيكل ذو القناتين يحقق تحقيقاً طبيعياً لذلك. بالمقارنة مع التصميم السائد الذي يعتمد على وحدة فك التشفير فقط، نجد أن استخدام الهيكل ذو الانتباه المتقاطع (cross-attention) يناسب دمج الرؤية واللغة في الوقت الحقيقي بشكل أفضل. حيث تُدخل الميزات البصرية عبر قناة جانبية، بدلاً من الانضمام إلى تسلسل التوليد التلقائي، مما يتيح لعملية الإدراك والتوليد العمل عبر مسارات مستقلة وغير متداخلة، مما يُقلل من تكرار المعالجة البصرية.
كما يتضمن النموذج خط أنابيب لتوليد البيانات يعمل على تحويل التسمية الكثيفة إلى فهم تفاعلي للوقت الحقيقي، حيث تتم مراجعة الإجابات لتتناسب مع ما قام النموذج بإدراكه حتى الآن. على الرغم من أن أداء النموذج كان أقل قليلاً مقارنة بالمعيار Qwen2.5-VL-7B، يُعزى هذا الفارق إلى حجم البيانات والمقياس بدلًا من التصميم المعماري.
لقد حقق النموذج أداءً تنافسياً في فهم الفيديو وفهم متعدد الأنماط، حيثظل قويًا في الاستدلال المكاني والفترة الزمنية الدقيقة التي تُعتبر محورية للاستخدام في الوقت الحقيقي. كما أنَّه تمكن من اكتساب سلوكيات لا تتوفر في النماذج التقليدية ومنها الإدراك المستمر، مراجعة الإجابات، والصمت في الوقت المناسب. عند استخدام وحدة H200 مع 256 إطار لكل فيديو، حقق النموذج زيادة في السرعة 5 مرات للوصول إلى أول رمز و2.7 مرة أعلى في معالجة التشفير، مع تدهور ضئيل في القدرات غير المتصلة.
إن دراستنا للبرادايم، البنية، والبيانات، تُرسم مساراً واعداً نحو فهم الفيديو في الوقت الحقيقي، مما يُمثّل خطوة ثورية في عالم الذكاء الاصطناعي.
موس-فيديو: فهم الفيديو في الوقت الحقيقي باستخدام تقنيات الانتباه المتداخل
يحدث تحول كبير في فهم الفيديو من النماذج التقليدية نحو التفاعل في الوقت الحقيقي. تقدم تقنية موس-فيديو (MOSS-Video-Preview) نموذجاً مبتكراً يجمع بين الرؤية واللغة لتحقيق استجابات أفضل وأكثر دقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
