في عصر يتنامى فيه الاعتماد على الذكاء الاصطناعي، يُعتبر فهم الفيديو مهارة أساسية للحفاظ على التنافسية. وقد أظهرت نماذج اللغة متعددة الوسائط (Multimodal Large Language Models - MLLMs) أداءً استثنائيًا في مجال إجابة الأسئلة المتعلقة بالفيديو (Video Question Answering - VideoQA). إلا أن التحدي يكمن في تقييم قدرة هذه النماذج على استخراج المعرفة العميقة والمهارات الإجرائية من مقاطع الفيديو التعليمية.
وفي هذا السياق، تم تقديم VG-GUIBench، وهو معيار مصمم خصيصًا لاختبار ما إذا كانت وكلاء واجهة المستخدم الرسومية (GUI agents) المستندة إلى MLLM يمكنها متابعة الدروس التعليمية لأداء المهام التفاعلية ذات الصلة.
كما أظهرت الأبحاث أن أداء النماذج في كل من VideoQA والمهام المدعومة بالفيديو يعتمد بشكل حاسم على فعالية استخراج الإطارات الأساسية. وهنا يأتي دور خوارزمية TASKER (Task-driven And Scene-aware Keyframe searchER)، التي تأخذ بعين الاعتبار صلة المهمة وديناميكيات المشهد لتحديد الإطارات المفيدة.
أثبتت النتائج التجريبية أن TASKER تحقق تحسينات ملحوظة في الأداء على مؤشرات VideoQA والمهام المدعومة بالفيديو، متفوقةً على أفضل المعايير بنسبة 2.0% على مجموعة EgoSchema الكاملة و1.8% على مجموعة NExT-QA.
هذه التطورات تشير إلى الإمكانات الكبيرة لطرق استخراج الإطارات الأساسية العامة في مهام فهم الفيديو. لمزيد من المعلومات، يمكنكم زيارة رابط المشروع على GitHub. ما رأيكم في هذه الخطوة تجاه مستقبل الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!
ثورة في فهم الفيديو: كيف ستغير خوارزمية TASKER المشهد في الذكاء الاصطناعي!
تم إطلاق VG-GUIBench، معيار جديد يهدف إلى تقييم قدرة نماذج الذكاء الاصطناعي في إتمام المهام التفاعلية من خلال الفيديوهات. بالإضافة إلى ذلك، تم تقديم خوارزمية TASKER لتحسين استخراج الإطارات الأساسية، مما يزيد من فعالية النماذج في معالجة الفيديو.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
