ما هو موضوع مقال "حل ثوري لفهم الفيديوهات الممتدة: تقديم MAGIC-Video"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "حل ثوري لفهم الفيديوهات الممتدة: تقديم MAGIC-Video" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

حل ثوري لفهم الفيديوهات الممتدة: تقديم MAGIC-Video

في عصر التكنولوجيا الحديثة، أصبحت الفيديوهات الممتدة، مثل التسجيلات الذاتية والبث المباشر ومقاطع الفيديو من كاميرات المراقبة، ذات أهمية متزايدة. ومع ذلك، لا يزال فهم هذه الفيديوهات الطويلة يمثل تحديًا كبيرًا.

في الوقت الحالي، يعتمد الذكاء الاصطناعي على نماذج لغوية متعددة الأنماط (Multimodal LLMs) التي، رغم قدرتها على معالجة سياقات تصل إلى ملايين الرموز، إلا أن قدرتها على التعامل مع الفيديوهات الطويلة تظل محدودة، حيث تغطي الميزانيات الزمنية في أغلب الأحيان دقائق معدودة فقط. لذا، يتم إغفال كمية كبيرة من المعلومات قبل بدء عملية الاستدلال.

لكن، ماذا لو كان هناك منهج جديد يغير هذه المعادلة؟

نقدم لكم extbf{MAGIC-Video}، إطار عمل مبتكر لا يتطلب التدريب، يركز على رسم بياني لذاكرة متعددة الأنماط، يتضمن سلسلة سرد متداخلة. يجمع هذا النظام بين المحتوى الحواري والمرئي والسياقي عبر ستة روابط مختلفة، مما يسهل استرجاع المعلومات عبر الأنماط المختلفة، إلى جانب تلخيص الروايات الطويلة التي تمتد عبر الأيام أو الأسابيع.

وعند نقطة الاستدلال، يقوم النظام بتوزيع عملية استرجاع الرسم البياني مع إدخال معلومات السرد، مما يغطي بعدي الأنماط الزمانية والمكانية في فيديوهاته الطويلة. وقد أظهر النظام نتائج مذهلة، حيث تفوق على الأنظمة القياسية الأخرى بنسب تصل إلى 10.1 و7.4 و5.9 نقطة على مؤشرات EgoLifeQA وEgo-R1 وMM-Lifelong.

للمزيد حول التطبيق العملي والتقني لهذا النظام، يمكنك زيارة GitHub magic-video.

حل ثوري لفهم الفيديوهات الممتدة: تقديم MAGIC-Video

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة ذكاء اصطناعي: المساعد الجديد من أدوبي يمكنه إنجاز المهام عبر جميع تطبيقاتك الإبداعية!

ثورة جديدة في عالم الحوسبة: استثمار ضخم ينذر بإطلاق عملاق الحوسبة التالي

هل تتجه أنظار المستثمرين نحو Anthropic بعد موجة الدولار؟