شهدت مجالات الذكاء الاصطناعي (AI) تقدمًا واضحًا في توليد الحركات البشرية من خلال نماذج الحركة المدفوعة بالنصوص، ولكن هناك عقبة كبيرة حيث أن النصوص بشكل فردي غالبًا ما تعجز عن التعبير عن الفروق الدقيقة في الحركة، المعروفة باسم الأسلوب. في إطار التعاون البحثي الجديد، تم تقديم تقنية مبتكرة تهدف إلى تحسين هذه العملية.
حيث تم الاشتغال على دمج آلية لإدخال الأسلوب مع نموذج diffusion المدفوع بالنصوص، ولكن الطرق التقليدية لا تزال تتطلب ضبطًا دقيقًا لنماذج محددة أو تعتمد على هياكل معقدة مثل ControlNet، مما يحد من الكفاءة وقدرتها على التكيف مع أنماط جديدة غير مسبوقة.
وقد قدم الباحثون إطار عمل خفيف الوزن يقوم بتعديل نموذج diffusion المدرب مسبقًا من خلال استخدام معلمات LoRA التي يتم توليدها عبر شبكة ضمنية (Hypernetwork). وذلك عن طريق ترميز حركة مرجعية أسلوبية في تجسيد عالمي للأسلوب، حيث يتم تعيينها عبر الشبكة ضمن إطار يتيح التحديثات منخفضة الترتيب التي تُطبق في كل خطوة إزالة الضوضاء ضمن النموذج.
تُبنى المساحة الحركية الطيفية للأسلوب باستخدام خسارة تباين إشرافية، مما يسمح للنموذج بالتقاط مجموعة متنوعة من الخصائص الأسلوبية، وتحسين إمكانية التعميم بالنسبة للأساليب غير المرئية، ودعم الإرشاد القائم على التحسين دون الحاجة إلى تصنيفات أسلوب محددة مسبقًا.
أظهرت التجارب التي أجريت على مجموعتي بيانات HumanML3D و100STYLE نتائج مذهلة وفريدة من نوعها في مجال التخصيص الموسيقي، محققة تقدمًا ملحوظًا لأنه يمكن للنموذج الآن توليد أنماط جديدة أكثر بشكل فعال.
إن هذا البحث يمثل نقلة نوعية في مجالات الذكاء الاصطناعي وتوليد الحركة، وقد يفتح آفاقًا جديدة للفنانين والمبدعين في عالم الرسوم المتحركة والألعاب. ما رأيكم في هذه التقنية الجديدة؟ هل تعتقدون أنها ستحسن من جودة تجاربنا البصرية؟ شاركونا في التعليقات.
ثورة جديدة في توليد الحركة النصية: كيف يمكن لأسلوب الديناميكية المعتمدة على الشبكات الضمنية تغيير المشهد!
تمكنت نماذج الحركة المدفوعة بالنصوص من تحقيق تقدم مثير في توليد الحركات البشرية، ولكنها تواجه تحديات في التعبير عن الأساليب الدقيقة. تقدم دراسة جديدة إطار عمل خفيف الوزن يمكّن الذكاء الاصطناعي من تجسيد أنماط جديدة بفعالية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
