في عالم تتزايد فيه الحاجة إلى التفاعل العاطفي في صناعة الفيديو، يزداد اهتمام الباحثين بتطوير نماذج قادرة على توليد فيديوهات تفاعلية تعبر عن مشاعر مختلفة. تمثّل EAD-Net (نموذج الشبكة المعتمد على الانتشار الواعي للعواطف) خطوة كبيرة نحو تحقيق هذا الهدف.

تسعى هذه التقنية إلى إنتاج فيديوهات بورتريه تعبيرية تستطيع محاكاة تعبيرات الوجه وحركات الشفاه بدقة عالية. ومع ذلك، كانت الطرق الحالية تعتمد على تسميات عاطفية بسيطة، مما أدى إلى معلومات دلالية غير كافية. لكن عبر دمج مفاهيم جديدة، تمكن الباحثون من تحسين تعبيرات العواطف في الفيديوهات مع مواجهة تحديات كبيرة مثل انحدار تزامن الشفاه (lip-sync).

تتضمن الابتكارات في EAD-Net آلية إعادة تمثيل زمنية تسمى TREPA، بالإضافة إلى استخدام إشراف SyncNet لتقليل المشكلات المتعلقة بتزامن حركة الشفاه الناتجة عن دمج المعلومات المتعددة. لكن لم يكن التزامن الصوتي وحده هو التحدي؛ بل كانت المشكلة الأكبر تكمن في كيفية ضمان التنسيق الزمني بين لقطات الفيديو، وهو ما تم التغلب عليه من خلال تصميم وحدة تفكير هيكلية زمنية (TFRM) تركز على فهم العلاقات الزمنية بين الإطارات.

باستخدام نموذج لغوي واسع النطاق (Large Language Model)، تم استخراج الوصف النصي من الفيديوهات الحقيقية، وخلق توجيه دلالي يعزز التحكم العاطفي في التوليد. النتائج التي تم الحصول عليها من اختبارات على مجموعات بيانات HDTF وMEAD أظهرت أن EAD-Net تتفوق على النظائر الحالية من حيث دقة التزامن الصوتي، والاتساق الزمني، ودقة التعبيرات العاطفية.

كيف ترى مستقبل تكنولوجيا توليد الفيديوهات العاطفية؟ شاركونا آراءكم في التعليقات!