تقدم الأبحاث الحديثة في نماذج الانتشار (Diffusion Models) علامة فارقة في صناعة الفيديو، حيث تُظهر القدرة على توليد محتوى مرئي يتسم بالإبداع والدقة. ولكن تبقى تساؤلات حول ما إذا كانت هذه النماذج حقاً تُدرك البنية الثلاثية الأبعاد (3D Structure) وراء المشاهد البصرية، أم أنها تكرر ببساطة إسقاطات ثنائية الأبعاد (2D Projections).

في هذه الدراسة الجديدة، تم التحقيق في إمكانية تحكم حركة الإنسان كنموذج لتحقيق فهم أعمق للجيوميتري (Geometry) ثلاثية الأبعاد، والحركة، وزاوية الكاميرا، وسياق المشهد. بدلًا من الطرق السابقة التي اعتمدت على مقاطع فيديو موجهة للحركة ثنائية الأبعاد، تم اقتراح إطار عمل خالٍ من عملية الرندر، حيث يعتمد توليد الفيديو بشكل مباشر على رموز (Tokens) ثلاثية الأبعاد مضغوطة لجسم الإنسان.

هذا التمثيل يحافظ على المعلومات الهندسية الثلاثية الأبعاد الكاملة، مما يمكّن من إنشاء مسار توليد موحد حيث تتم معالجة رموز الفيديو جنباً إلى جنب مع رموز الحركة داخل بنية مستندة إلى مفهوم DiT. يتطلب هذا التصميم من النموذج التفكير بشكل مشترك حول المظهر، والبنية ثلاثية الأبعاد، وزاوية الكاميرا أثناء عملية توليد الفيديو.

أظهرت النتائج التجريبية أداءً قوياً على متطلبات تحكم حركة الإنسان، مع تقليل العيوب الناتجة عن توجيه الحركة ثنائي الأبعاد المعتمد على الزاوية وتباين الحركة أثناء التعديل. تدلل هذه الاكتشافات على أن نماذج انتشار الفيديو، عندما يتم تزويدها بتقنية تقسيم رموز الشبكة، يمكن أن تلتقط بشكل أفضل الهياكل البشرية ثلاثية الأبعاد المعقدة وتفاعلاتها مع البيئة المحيطة بها.

تعكس هذه الدراسة التقدم المذهل في فهمنا لكيفية دمج تقنيات الذكاء الاصطناعي لتوليد محتوى مرئي أكثر واقعية، مما يفتح آفاقاً جديدة لصناعة الفيديو والبث الرقمي.