يعكف الباحثون حالياً على تطوير أساليب حديثة في مجال تحرير الحركة البشرية ثلاثية الأبعاد باستخدام النصوص كإرشادات. تستهدف هذه الدراسات الحفاظ على النمط والبنية الأصلية للحركة المصدرة أثناء إجراء تعديلات مبنية على تعليمات نصية. إن توفر مجموعة بيانات MotionFix قد أدى إلى تعزيز الأبحاث في نماذج الانتشار المدربة (training-based diffusion models)، التي تولد حركة معدلة مباشرة من الحركة الأصلية وتعليمات النص.

تتناول الأبحاث الجديدة جانباً معقداً حيث لا يركز البحث فقط على توقيت التعديلات، بل يهدف إلى فهم التغيرات التي تتعلق بمواضع المفاصل المحددة. لتحقيق هذا الهدف، تم اقتراح بنية جديدة، بالإضافة إلى مهمة مساعدة للتدريب. هذه البنية تتكون من محولين (Transformers) مثبتين على محورين، يقومون باستخراج ميزات مختلفة على طول أبعاد المفاصل والزمن، مع وجود كتلة دمج عبر المحاور (cross-axis fusion block) التي تدمج هذه التمثيلات.

بالإضافة إلى ذلك، تم تقديم مهمة مساعدة تهدف إلى تدريب المحول (Transformer) المرتبط بالمفاصل لتحليل المسافة Soft-DTW بين دورات الحركة للمفاصل المصدر والهدف. هذه الأهداف تعلم الوحدة كيفية تحديد المفاصل التي تحتاج إلى تعديل وتلك التي يجب الحفاظ عليها.

عبر تجارب شاملة على مجموعة بيانات MotionFix، أثبتت الطريقة الجديدة تحسينات كبيرة في توافق المعنى مع كل من التعليمات النصية والحركة الأصلية، فضلاً عن الدقة العامة للحركة الناتجة، مما يجعلها تحقق نتائج تعتبر الأفضل في هذا المجال.