في عالم الذكاء الاصطناعي وتكنولوجيا الفيديو، ظهرت مؤخرًا حيثيات جديدة تمثل نقلة نوعية في معالجة الفيديو وفهم مكوناته. يقدم DynFrame، الإطار المتوافق مع الاستدلال المتكيف (Adaptive Reasoning)، طريقة مبتكرة للتعامل مع التعقيدات المترتبة على الفيديوهات متعددة الوسائط.

يعتمد DynFrame على نماذج لغوية متعددة الوسائط الكبيرة (Multimodal Large Language Models - MLLMs) التي استطاعت دمج عملية الاستدلال خطوة بخطوة مع استرجاع الأدلة البصرية عند الطلب. لكن، هناك ثغرتان رئيسيتان لا تزالان موجودتين في الأنظمة الحالية التي تستخدم التفكير باستخدام الفيديو. الأولى هي أن كثافة العينة ليست قرارًا يمكن تعلمه، وهذا يعني أن الأنظمة القائمة تفرض قيودًا على معدل عرض الإطارات، مما يؤدي إلى زيادة التعقيد في التدريب. الثانية، أن استرجاع الأدلة وتوليد الإجابات غالبًا ما يتم تحسينهما بشكل متزامن، مما يتسبب في تحقيق تسهيلات متساوية بين اختيار المكان الذي يجب النظر إليه وكيفية الإجابة، حتى عندما يكون أحدهما صحيحًا والآخر خاطئًا.

للتغلب على هذه المشكلات، تم تقديم إطار DynFrame الذي يتيح عرض نافذة زمنية وكثافة العينة كرموز مدمجة ضمن عملية استرجاع واحدة، الأمر الذي يمكن من جمع الأدلة بمستويات متعددة من الدقة في خطوة واحدة. بالإضافة إلى ذلك، تم تقديم تقنية جديدة باسم Segment-Decoupled GRPO (SD-GRPO)، التي تفصل كل rollout عند حدود الاسترجاع وتعطي ميّزات خاصة للرموش الكودية، مما يساهم في تعزيز الدقة والموثوقية.

مع استناد DynFrame إلى مجموعات بيانات انتقائية مثل DM-CoT-74k و DM-RL-45k، أظهرت النسخة DynFrame-4B أداءً تنافسياً بفضل قوة الحساب في نماذج بقاعدة بيانات قوية بحجم 7B-8B، حيث حققت نتائج بارزة على ستة مقاييس مختلفة، مثل NExT-GQA وCharades-STA. ومن المثير أن DynFrame-8B قد حطمت الأرقام القياسية في معظم المقاييس، مما يؤكد على تفوقها وتحقيقها لمستويات جديدة في عالم تقنيات الفهم الآلي للفيديو.