تعد عملية توليد الحركات البشرية الواقعية في الفيديو من أبرز التحديات التي يواجهها الباحثون في مجال الذكاء الاصطناعي. على الرغم من التقدم المستمر في تحسين جودة الفيديو باستخدام تقنيات التعلم المعزز (Reinforcement Learning)، لم يتمكن الباحثون بعد من تجاوز عقبات تقيم واقعية هذه الحركات. معظم الأنظمة الحالية تعتمد على إشارات إدراكية ثنائية الأبعاد، مما يعني أنها لا تأخذ في الاعتبار النمذجة الدقيقة لحالة الجسم ثلاثي الأبعاد، والتواصل، والديناميات الأساسية للحركة.

لذا، قدم باحثون نظام PhyMotion، الذي يمثل طفرة في هذا المجال. يجمع هذا النظام الحركات البشرية المستعادة من مقاطع الفيديو ويقيمها بناءً على محاكاة فيزيائية، مما يسمح بتقييم جودة الحركة عبر عدة أبعاد تتعلق بالواقع الفيزيائي. يركز PhyMotion على ثلاث محاور رئيسية: إمكانية الحركة الدينامية، التوازن والتواصل بين الأجسام، والملاءمة الحركية.

تُظهر التجارب أن PhyMotion يحقق تواصلاً أقوى مع تقييمات البشر مقارنة بالإشارات السابقة، مما يجعل النظام مثمرًا في تحسين الجودة في توليد الفيديو. هذه التحسينات تتضمن ارتفاع معدل النجاح إلى +68 Elo، مما يؤكد على تقدم النظام في تحقيق حركات بشرية أكثر واقعية لكل من نماذج الفيديو الذاتية الاتجاه والثنائية الاتجاه.

مع قدرة PhyMotion على الحفاظ على جودة الفيديو العام أثناء التدريب المعتدل، يصبح من الواضح أنه يوفر إشارات إشرافية متكاملة تساهم في تحسين الأنظمة بشكل عام. بالتالي، يمكننا أن نتوقع أن هذا الابتكار سيشكل الأساس لمزيد من التطورات في مجال توليد المحتوى الرقمي.