في عالم الذكاء الاصطناعي، يستمر الابتكار في دفع حدود ما هو ممكن. وفي هذا السياق، كشفت دراسة جديدة عن نظام EM-Vid الذي يقدم مفهومًا ثوريًا يُعرف بذاكرة موجهة بالكائنات (Entity-Centric Memory)، مما يُمكن من إنشاء فيديوهات متعددة اللقطات بشكلٍ أكثر كفاءة ودقة.
تعتبر عملية إنشاء فيديوهات متعددة اللقطات من التحديات الصعبة، حيث يتطلب الأمر الحفاظ على مظهر الكائنات المتكررة عبر لقطات مختلفة، بينما نلتزم أيضًا بتعليمات نصية معينة لكل لقطة. ومع الأساليب الحديثة للاعتماد على إعادة استخدام الإطارات التي تم إنتاجها سابقًا كذاكرة، نشأت مشكلة جديدة. فتخزين الإطارات بالكامل يؤدي إلى تداخل المعلومات المتعلقة بالكائنات الثابتة مع السياقات المتغيرة للمناظر، مما يؤدي إلى تسرب معلومات غير ذات صلة وزيادة في التكاليف الحاسوبية.
لذا، يأتي نظام EM-Vid ليقدم حلًا مبتكرًا: بنية ذاكرة موجهة بالكائنات على شكل بنك من اللاتنت باتشات (Latent Patches) مُعَلمة بالكائنات. من خلال تقديم طريقة تكييف تعتمد على الرموز المتناثرة (Sparse Token Conditioning) والمتوافقة مع النماذج المدربة مسبقًا، يضمن النظام تخصيص الانتباه الذاتي لرموز متعلقة بالكائنات، مما يقلل من تكلفة الحساب.
كما يُقدِّم النظام تنسيق نصي هيكلي خاص بإنشاء الفيديوهات متعددة اللقطات، بالإضافة إلى استراتيجية تحديث ذكية لذاكرة محدثة باستمرار، ما يضمن الحفاظ على ذاكرة أكثر فعالية وذكاء. ولتعزيز دقة الصورة، تم تزويد تمثيل الكائنات بآلية حقن الضوضاء التي تسمح بالتحكم الدقيق في المظهر، مما يعزز التزام النظام بالتعليمات دون تسرب لأي معلومات غير مرغوب فيها.
بهذه الطريقة، لا يُحسن EM-Vid من الكفاءة فقط، بل أيضًا من اتساق الموضوعات في الفيديو الناتج، مما يجعله أداة قوية لمستقبل إنشاء الفيديوهات باستخدام الذكاء الاصطناعي. يكمن السؤال الآن: كيف سيُغير هذا الابتكار مشهد صناعة الفيديو؟
ابتكار ذكاء اصطناعي: ذاكرة موجهة بالكائنات تعزز من كفاءة إنشاء الفيديوهات متعددة اللقطات!
أعلنت دراسة جديدة عن ابتكار نظام ذاكرة موجه بالكائنات يُعرف بـ EM-Vid، مما يُحسن من دقة وكفاءة إنشاء الفيديوهات متعددة اللقطات. يعتمد هذا النظام على تخزين المعلومات بصورة ذكية تقلل من التداخل وتحسن من التجربة البصرية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
