في عصر التكنولوجيا الحديثة، أصبحت الفيديوهات الممتدة، مثل التسجيلات الذاتية والبث المباشر ومقاطع الفيديو من كاميرات المراقبة، ذات أهمية متزايدة. ومع ذلك، لا يزال فهم هذه الفيديوهات الطويلة يمثل تحديًا كبيرًا.
في الوقت الحالي، يعتمد الذكاء الاصطناعي على نماذج لغوية متعددة الأنماط (Multimodal LLMs) التي، رغم قدرتها على معالجة سياقات تصل إلى ملايين الرموز، إلا أن قدرتها على التعامل مع الفيديوهات الطويلة تظل محدودة، حيث تغطي الميزانيات الزمنية في أغلب الأحيان دقائق معدودة فقط. لذا، يتم إغفال كمية كبيرة من المعلومات قبل بدء عملية الاستدلال.
لكن، ماذا لو كان هناك منهج جديد يغير هذه المعادلة؟
نقدم لكم extbf{MAGIC-Video}، إطار عمل مبتكر لا يتطلب التدريب، يركز على رسم بياني لذاكرة متعددة الأنماط، يتضمن سلسلة سرد متداخلة. يجمع هذا النظام بين المحتوى الحواري والمرئي والسياقي عبر ستة روابط مختلفة، مما يسهل استرجاع المعلومات عبر الأنماط المختلفة، إلى جانب تلخيص الروايات الطويلة التي تمتد عبر الأيام أو الأسابيع.
وعند نقطة الاستدلال، يقوم النظام بتوزيع عملية استرجاع الرسم البياني مع إدخال معلومات السرد، مما يغطي بعدي الأنماط الزمانية والمكانية في فيديوهاته الطويلة. وقد أظهر النظام نتائج مذهلة، حيث تفوق على الأنظمة القياسية الأخرى بنسب تصل إلى 10.1 و7.4 و5.9 نقطة على مؤشرات EgoLifeQA وEgo-R1 وMM-Lifelong.
للمزيد حول التطبيق العملي والتقني لهذا النظام، يمكنك زيارة [GitHub magic-video](https://github.com/lijiazheng0917/MAGIC-video).
حل ثوري لفهم الفيديوهات الممتدة: تقديم MAGIC-Video
تواجه تقنيات الذكاء الاصطناعي تحديات كبيرة في فهم الفيديوهات الطويلة مثل التسجيلات الذاتية والبث المباشر. ولكن مع ظهور نظام MAGIC-Video، يمكن تحقيق طفرة في معالجة هذه البيانات المعقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
