في عالم الذكاء الاصطناعي، يتزايد الاهتمام بتوليد الحركات البشرية بشكل موحد ومحكم. وقد أظهرت الدراسات أن تحقيق هذا الهدف يعتمد بشكل كبير على تكامل الشروط، مثل النصوص والوصف المكاني. لكن، كانت هناك مشكلتان رئيسيتان تعيق هذه العملية: تعارض الشروط النصية والمسار الذي كان يؤدي إلى تقليل جودة الحركة أو عدم دقتها، بالإضافة إلى أن تمثيلات الحركة الزائدة قد تؤدي إلى تناقضات تزعزع استقرار التحكم في المسار.

لذا، تم تقديم CMC، وهو إطار مبتكر ينسق بين الشروط النصية والمسارية بشكل فعال من خلال استراتيجية التقسيم والتغلب. يتألف CMC من مرحلتين مترابطة: التحكم في المسار وإكمال الحركة. في المرحلة الأولى، يتم استخدام نموذج انتشاري لتوليد تمثيل مبسط للمفاصل تحت إرشادات المسار، مما يضمن اتباع المسار بدقة. أما في المرحلة الثانية، فيستخدم نموذج التحسين المعتمد على النصوص لإنتاج حركات بدنية كاملة، مسبوقة بتمثيل المرحلة الأولى.

لمواجهة مشكلة الإفراط في التكيف الناتجة عن نقص بيانات التدريب، تم تقديم آلية التصوير الانتقائي (SIM) التي توازن بين مهام تكوين الحركة والتمثيل. تؤكد التجارب التي أجريت على قواعد بيانات HumanML3D وKIT أن CMC يحقق أداءً رائدًا في دقة التحكم وجودة الحركة، مما يبرهن على فعاليته في تنسيق الشروط المتعددة.

إن هذه التطورات تمثل خطوة استراتيجية نحو تحسين كيفية تفاعل الذكاء الاصطناعي مع بيئته وتحسين إنتاج الحركات البشرية الواقعية. هل تعتقد أن هذه التقنية ستغير من عالم الروبوتات والذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات.