في عصر الذكاء الاصطناعي، تأتي الابتكارات باستمرار لتغيير الطريقة التي نشاهد بها العالم. ومن بين هذه التطورات الرائدة، إطار عمل E$^3$C (Video Generation with 3D Environmental Memory and Ego-Exo Human Pose Control) الذي يعد ثورة في تقنية توليد الفيديو.

يعتبر توليد الفيديو القابل للتحكم وذو الأساس الفيزيائي ضروريًا لوكالات الذكاء الاصطناعي المندمجة لتكون قادرة على فهم كيف يتم عرض الأفعال والتغيير في العالم. إلا أن توليد الفيديو الإيجو-سنتر يمثل تحديًا خاصًا، بسبب الربط الوثيق بين الكاميرا والممثل، مما يؤدي إلى تغييرات سريعة في وجهة النظر وظهور ذاتي متكرر. وكل ذلك يتطلب أن تتطور الحالة الفردية والمشهد بشكل متسق مع الأهداف المحددة.

يعمل E$^3$C على تفكيك الهياكل الثابتة المعقدة لمشهد معين من الديناميات التي يقودها البشر. يبدأ النظام بإنشاء ذاكرة ثلاثية الأبعاد قائمة على نقطة سمكية قادرة على رصد المظاهر من نقاط فريدة من فيديوهات سابقة. هذا الرصد يتم تحويله إلى وجهات نظر جديدة متماشية مع الإطارات المستهدفة.

تحكم الديناميات البشرية داخل المشهد يتم عن طريق استخدام النماذج الهياكلية (exo human control)، فيما يتم تحديد متطلبات مستخدم الكاميرا من خلال مفاصل جسده وتحركات معصم ثلاثية الأبعاد (6DoF). وللحفاظ على التحكم في وضع المستخدم من زوايا غير مرئية، تم تقديم مركز الحركة الذاتية (ego motion encoder) الذي ينتج رموز انتباه متقاطعة مستدامة.

التجارب التي أجريت على نظام Nymeria أظهرت أن E$^3$C يعزز من دقة الصورة، وموثوقية حركة الكاميرا، والاتساق بين الكائنات، فضلًا عن تحسين التحكم في الإنسان الإيجو والإكزو، مما يفتح آفاقًا جديدة للتحرير البديهي للمشاهد.

في الختام، فإن تطور E$^3$C ليس مجرد تقنية جديدة، بل يمثل خطوة كبيرة نحو المستقبل، حيث يستطيع الذكاء الاصطناعي فهم وتوليد المشاهد البشرية بشكل غير مسبوق. ما رأيكم في هذا التطور المثير؟ شاركونا في التعليقات.