في إطار التطورات المتسارعة في مجال الذكاء الاصطناعي، يقدم باحثون نظاماً مبتكراً في مجال استرجاع الفيديو، وذلك ضمن ورشة العمل الثانية حول التوليد المعزز متعدد الوسائط عبر استرجاع متعدد الوسائط (MAGMaR). يواجه هذا النظام التحديات الأساسية التي تتعلق بفهم الفيديوهات الطويلة عبر لغات متعددة والالتزام الشخصي الصارم مع ضمان عدم الانحراف عن السياق الزمني.
يلتزم النظام الجديد بعدم الحاجة إلى التدريب المسبق من خلال إنشاء Pipeline من مرحلتين يتضمن تقنية استرجاع الفيديو المعزز (Video RAG). تركز البنية المعمارية لهذا النظام على فصل الاسترجاع الدلالي (semantic retrieval) عن التفكير المنطقي (logical reasoning) بفضل تقسيم العمل الذي يأخذ بعين الاعتبار تفاصيل الأداء المختلف.
في المرحلة الأولى، يستخدم النظام وحدة استرجاع دلالية ذات استرجاع مرتفع (high-recall semantic pre-fetching) تعتمد على استرجاع كثيف باستخدام ملخصات بصرية عالية الوضوح ووصف نصي عالمي. يتم عزل الأنماط الضوضائية مثل التعرف الضوئي على الحروف (OCR) والتعرف على الكلام الآلي (ASR)، مما يساهم في الحفاظ على نقاء الفضاء الشعاعي.
ثم ينتقل النظام إلى المرحلة الثانية حيث يتدخل وكيل تصفية قائم على طريقة التفكير التكرارية والتكيفية (Adaptive, Iterative, and Reasoning-based - A.I.R.)، المدعوم بنموذج لغوي واسع (Large Language Model - LLM)، للقيام بإعادة ترتيب النتائج بشكل دقيق. يقوم هذا الوكيل بإعادة دمج السياقات متعددة الوسائط الكاملة لضمان توافق منطقي صارم مع شخصيات المستخدمين، مما يساعد في استبعاد الخيارات التي قد تكون دلالياً مشابهة لكنها غير منطقية.
أخيراً، يتم تطبيق آلية تشكيل الموجهات (Prompt Sculpting) التي تقيد المُولّد لتوليد ردود مكتوبة بصيغة JSON منظمة بدقة مع مراجع نصية دقيقة. تم تقييم هذا النهج واختباره بشكل فعال ضمن مسار RAG، حيث أظهر دقة استثنائية في كلاً من استرجاع المعلومات وتوليد المحتويات المشروطة بالشخصيات.
ابتكار ثوري في استرجاع الفيديو: فصل الدلالات عن المنطق من خلال Pipeline متطور!
تطوير نظام استرجاع فيديو متقدم بدون تدريب يواجه التحديات الكبرى لفهم الفيديوهات الطويلة. اعتمد النظام على بنية مبتكرة تفصل بين الاسترجاع الدلالي والتفكير المنطقي لتحقيق نتائج دقيقة ومذهلة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
