تتقدم تقنيات توليد الحركة من النصوص بشكل ملحوظ في إنتاج حركات واقعية لشخص واحد، ولكن توسيع هذه التقنيات لتشمل التفاعلات الثلاثية الأبعاد بين البشر (Human-Human Interaction - HHI) يمثل تحدياً كبيراً. فهذا النوع من التفاعل يتطلب نمذجة هيكل اجتماعي معقد ينظم تطور المراحل، أدوار الفاعلين، وتنسيق الحركة بين هؤلاء الفاعلين.

في بحثنا الأخير، تناولنا قضية توليد HHI كمسألة نمذجة وبناء هيكل اجتماعي. إذ يجب على النموذج أن يستنتج كيف يتطور التفاعل وكيف من الضروري تنسيق الأدوار بين الفاعلين، ومن ثم تجسيد هذا الهيكل كحركة ثلاثية الأبعاد مستمرة، واقعية بديناميكيات وشعور بالطرف الآخر.

لدراسة كيفية نمذجة هذا الهيكل الاجتماعي، قمنا أولاً بفحص حدود قدرة نماذج اللغات الكبيرة (Large Language Models - LLMs) في توليد HHI. وأظهر تحليلنا أن هذه النماذج يمكن أن "تفكر" من خلال استعادة تفكيك المراحل وتحديد الأدوار المرتبطة بالشركاء، لكنها تعجز عن "الحركة"، حيث تفشل في توليد حركات ديناميكية واقعية ومتنبهة للتفاعل.

لذلك، قمنا بتطوير نموذج "المخطط-المنفذ" (planner-executor paradigm) الذي يعتمد على فكرة "افكر باستخدام LLM، تحرك باستخدام مهارات الحركة". يقوم المخطط LLM بتحويل المعاني الضمنية للتفاعل إلى إشراف اجتماعي متوافق مع الحركة من خلال تفكيك التفاعلات إلى مراحل، وتعيين أدوار فاعلة ملائمة للشركاء، ومحاذاتها مع تسلسل الحركة. بعد ذلك، يقوم المنفذ بتحويل الهيكل الاجتماعي المخطط إلى حركات منسقة لشخصين من خلال تعديل نموذج حركة مُدرَّب مسبقاً بواسطة LoRA، مع مراعاة ذات المرحلة السابقة، وشروط الشريك العقلاني.

من خلال إطار العمل Solo-to-Social الذي طورناه، نحقق توازناً بين التنظيم الاجتماعي وإيجاد الحركة، مما ينتج عنه تفاعلات ثلاثية الأبعاد محسنة تتسم بالاتساق المرحلي، وتوافق الأدوار، وتنسيق متفاعل بين الشركاء.