في عالم يزداد تعقيدًا وتنوعًا، تُعتبر مهمة الإجابة عن الأسئلة المتعلقة بالفيديو (Video Question Answering) ساحة اختبار حاسمة لتقييم ما إذا كانت نماذج الأساس قادرة على استيعاب وفهم الظواهر الديناميكية في الحياة الواقعية. ومع ذلك، لا تزال نماذج اللغات متعددة الوسائط (Multimodal Large Language Models) تواجه صعوبة في نمذجة العلاقات المكانية داخل إطارات الفيديو وفهم الديناميات الزمنية المعقدة.

في مسعى جديد لتعزيز قدرات الذكاء الاصطناعي، قام الباحثون بتزويد نماذج اللغات متعددة الوسائط بأداة فيديو شاملة وقابلة للتوسيع، ما يسهم في تحسين القدرات على التفكير المكاني والزمني وضمان توازن بين عدد وتنوع الأدوات.

لتحسين التحكم في تسلسل استدعاء الأدوات وتفادي مشكلات اختصار سلسلة الأدوات، اقترحوا إطار عمل التفكير المكاني الزمني (Spatiotemporal Reasoning Framework) الذي يقوم بجدولة استراتيجيات الأدوات الزمنية والمكانية بشكل متدرج، مما يسمح بتحديد المنطقة الرئيسية في الفيديو بشكل تدريجي.

ساهم إطار العمل STAR في تعزيز نموذج GPT-4o من خلال أدوات خفيفة الوزن، محققًا مكاسب بنسبة 8.2% على VideoMME و4.6% على LongVideoBench. نعتقد أن أدوات الفيديو وإطار العمل STAR يمثلان خطوة هامة نحو بناء مساعدين ذكيين ومستقلين لتحليل الفيديو. الكود متاح للجمهور على رابط راجع.

ما رأيكم في أهمية هذه التطورات؟ هل ترون أنها ستحدث ثورة في كيفية التعامل مع الفيديوهات؟ شاركونا أفكاركم في التعليقات!