في عالم تتزايد فيه أهمية مقاطع الفيديو كمصدر للمعلومات، قدم الباحثون معيارًا جديدًا يُعرف باسم VideoDR، والذي يعيد تعريف كيفية استجابة الذكاء الاصطناعي للأسئلة المتعلقة بالفيديو. يتعامل هذا المعيار مع التحديات التي تواجه نماذج الذكاء الاصطناعي التقليدية، حيث تتوزع المعلومات الدقيقة على الويب بشكل غير متوقع.

يتطلب VideoDR من نماذج الذكاء الاصطناعي الاستخراج المتقاطع للمعالم البصرية (cross-frame clue extraction) واسترجاع المعلومات بشكل تفاعلي (interactive retrieval) مع إمكانية تحليل متعدد الخطوات (multi-hop reasoning). وقد تم إنشاؤه بفضل تقييم دقيق ودعم من خبراء في مجالات مختلفة، حيث يغطي مجموعة واسعة من المواضيع.

ومع ذلك، كشفت الدراسات حول نماذج اللغات الضخمة (Large Language Models) الموجودة حاليًا أن هناك فارقًا ملحوظًا بين أداء نموذج Agentic ونموذج Workflow. بينما يمكن لنموذج Agentic أن يتفوق في بعض الحالات، فإن نجاحه يعتمد على قدرته على الحفاظ على المعالم البصرية الأولية أثناء عمليات الاسترجاع الطويلة.

تشير التحليلات الإضافية إلى أن انحراف الهدف (goal drift) والتناسق على المدى الطويل (long-horizon consistency) يمثلان نقطتي الضعف الأكثر تأثيرًا التي تحتاج إلى تحسين. مع بروز VideoDR كمرجع منهجي لدراسة وكلاء الفيديو في إعدادات الويب المفتوحة، فإنه يكشف النقاب عن التحديات الرئيسية التي تواجه الجيل القادم من وكلاء الأبحاث العميقة في الفيديو.