في عصر يتسم بتطور تقنيات فهم الفيديو المباشر، أعلن الباحثون عن تطويرهم لإطار عمل جديد يُعرف باسم إم-غارد (Em-Garde). هذا الإطار يمثل قفزة نوعية في الطريقة التي تتفاعل بها نماذج الفيديو مع استفسارات المستخدمين، مبرزاً أهمية الفهم السًريع والدقيق في بيئات البث المباشر.
تعتبر نماذج الفيديو الحالية، مثل نماذج فيديو اللغات الكبيرة (VideoLLMs)، عُرضة لمشكلة هندسية بين الكفاءة والدقة عند استجاباتها لمطالبات المستخدمين، حيث تعتمد على اتخاذ قرارات مستندة إلى كل إطار على حدة. هنا يأتي دور إم-غارد، الذي يفصل بين الفهم الدلالي والإدراك المتدفق.
يتضمن الإطار الجديد مكونات ثورية، حيث يقوم محلل الاقتراح الموجه بالتعليم (Instruction-Guided Proposal Parser) بتحويل استفسارات المستخدمين إلى مقترحات بصرية قائمة على الإدراك، مما يوفر هيكل منطقي لمكونات الفيديو. بالإضافة إلى ذلك، يهدف وحدة مطابقة الاقتراحات خفيفة الوزن (Lightweight Proposal Matching Module) إلى تحسين عملية المطابقة باستخدام تقنيات فعالة مما يزيد من دقة الاستجابة ونقل البيانات بسرعة.
أظهرت التجارب التي أجريت على منصتي StreamingBench وOVO-Bench تحسناً ملحوظاً في دقة الاستجابة والكفاءة مقارنة بالنماذج السابقة. هذا الابتكار يقدم حلاً فعالاً لفهم الفيديو النشط تحت قيود حسابية صارمة، مما يمهد الطريق للتفاعل الأكثر طبيعية في بيئات الفيديو المباشر.
إم-غارد: إطار مبتكر لفهم الفيديو المباشر والاستجابة التفاعلية
طورت مجموعة من الباحثين إطاراً جديداً يسمى إم-غارد، يهدف إلى تحسين فهم الفيديو المباشر من خلال استجابات تفاعلية أكثر دقة وفاعلية. هذا الإطار يحل مشكلة الكفاءة والدقة في معالجة استجابات نماذج الفيديو الحالية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
