في عصر يتسم بتطور تقنيات فهم الفيديو المباشر، أعلن الباحثون عن تطويرهم لإطار عمل جديد يُعرف باسم إم-غارد (Em-Garde). هذا الإطار يمثل قفزة نوعية في الطريقة التي تتفاعل بها نماذج الفيديو مع استفسارات المستخدمين، مبرزاً أهمية الفهم السًريع والدقيق في بيئات البث المباشر.

تعتبر نماذج الفيديو الحالية، مثل نماذج فيديو اللغات الكبيرة (VideoLLMs)، عُرضة لمشكلة هندسية بين الكفاءة والدقة عند استجاباتها لمطالبات المستخدمين، حيث تعتمد على اتخاذ قرارات مستندة إلى كل إطار على حدة. هنا يأتي دور إم-غارد، الذي يفصل بين الفهم الدلالي والإدراك المتدفق.

يتضمن الإطار الجديد مكونات ثورية، حيث يقوم محلل الاقتراح الموجه بالتعليم (Instruction-Guided Proposal Parser) بتحويل استفسارات المستخدمين إلى مقترحات بصرية قائمة على الإدراك، مما يوفر هيكل منطقي لمكونات الفيديو. بالإضافة إلى ذلك، يهدف وحدة مطابقة الاقتراحات خفيفة الوزن (Lightweight Proposal Matching Module) إلى تحسين عملية المطابقة باستخدام تقنيات فعالة مما يزيد من دقة الاستجابة ونقل البيانات بسرعة.

أظهرت التجارب التي أجريت على منصتي StreamingBench وOVO-Bench تحسناً ملحوظاً في دقة الاستجابة والكفاءة مقارنة بالنماذج السابقة. هذا الابتكار يقدم حلاً فعالاً لفهم الفيديو النشط تحت قيود حسابية صارمة، مما يمهد الطريق للتفاعل الأكثر طبيعية في بيئات الفيديو المباشر.