تمثل تقنية توليد الوجوه المتحدثة بواسطة الصوت (Audio-driven Talking Head Generation) أحد أبرز التطورات في مجال الذكاء الاصطناعي، وقد شهدت تقدمًا مذهلاً في السنوات الأخيرة. ومع ذلك، كانت بروتوكولات التقييم التقليدية تعتمد في معظمها على معايير إطار معياري (Frame-wise metrics) تفترض توافقًا صارمًا بين مقاطع الفيديو المولدة ومقاطع الفيديو المرجعية. هذه الفرضية لا تعكس بالحقيقة حركة الوجه المدفوعة بالكلام، التي تتضمن بطبيعتها تغييرات زمنية طفيفة، وسرعات تحدث متفاوتة، وأنماط تعبيرية متنوعة.

نتيجة لذلك، تسيء المعايير التقليدية تفسير الفروق الزمنية التي قد تكون غير مؤذية، مما يزيد من صعوبة مقارنة الأساليب بشكل عادل وفهم مزاياها وعيوبها. في هذا السياق، نقدم حجة قوية لتطوير تقييم نماذج التوليد الديناميكية من خلال صيغة جديدة تقوم على مشكلة محاذاة التسلسل (Sequence Alignment) بدلاً من مقارنة الإطارات بشكل منفصل.

نقدم في هذا البحث صياغة موحدة لتقييم تسلسلي يدمج تقنية تشويه الوقت الديناميكي اللين (Soft Dynamic Time Warping) ضمن خطوط التقييم المعتمدة. من خلال محاذاة المسارات الخصائصية مع الحفاظ على الترتيب الزمني، يوفر الإطار المقترح صمودًا تجاه التغيرات الزمنية المحدودة دون تغيير النماذج الحسية أو الهوية أو محركات التزامن.

نوضح أن التقييم الإطاري يمكن اعتباره حالة خاصة تحت محاذاة صارمة، بينما توفر المحاذاة على مستوى التسلسل استقرارًا أفضل، وحساسية أقل للفروق الزمنية، وفصل أوضح بين أنماط النمذجة. بالاستناد إلى هذه الصياغة المبدئية، قمنا بإجراء معيار واسع النطاق لتقييم 20 أسلوبًا عبر سبعة مجموعات بيانات تتراوح بين السيناريوهات الكلاسيكية، والبيئات الطبيعية، وأنماط متنوعة تحت بروتوكولات معيارية. أظهرت التجارب المكثفة أن المعايير المتوازنة زمنياً أكثر صمودًا تجاه الفروق الزمنية، وتقدم نتائج أكثر اتساقًا عبر مجموعات البيانات، وتكشف بشكل أفضل عن المزايا والعيوب النظامية بين أنماط النمذجة، مثل التزامن مقابل الواقعية والتعبيرية مقابل الاستقرار.

في الختام، تعد هذه النتائج خطوة هامة نحو تحسين تقييم تقنيات توليد الوجوه المتحدثة بالصوت، مما يتيح للمطورين والباحثين تحقيق تحسينات ملموسة في أدائهم.