في عصر التكنولوجيا الحديثة، تعتبر عملية توليد الصوتيات المدعومة بالفيزياء بين النصوص والصور (Text-to-Audio-Video) محورًا أساسيًا للعديد من التطبيقات، مثل صناعة الأفلام وتمثيل العالم الافتراضي. ولكن تواجه النماذج الحالية تحديات كبيرة في إنتاج أصوات تتماشى مع القوانين الفيزيائية.

لا تركز المعايير السابقة بصورة أساسية على تقييم التفاعل بين الصوتيات والفيزياء، مما يقيد إمكانية تطوير أنظمة توليد مرئية وصوتية متناسقة. ولذلك، تم تقديم PhyAVBench، الأول من نوعه لتقييم قدرات النماذج في تحقيق هذا الهدف.

يتضمن PhyAVBench مجموعة بيانات جديدة، PhyAV-Sound-11K، التي تحتوي على 25.5 ساعة من الفيديوهات المسجلة من 11,605 مشاركًا، مع وجود 337 مجموعة من العبارات التي تمتلك اختلافات فيزيائية محددة. هذا التقييم يقدم أيضًا اختبار الحساسية للصوتيات (Audio-Physics Sensitivity Test - APST)، باستخدام معيار جديد يسمى درجة الاستجابة الفيزيائية التباينية (Contrastive Physical Response Score - CPRS) لتحديد مدى اتساق الصوتيات.

تم إجراء تقييم شامل لـ 17 نموذجًا متقدمًا في هذا المجال، وأظهرت النتائج أن العديد من الطرازات الرائدة لا تزال تواجه صعوبات مع الظواهر الفيزيائية الأساسية. إن PhyAVBench ليس مجرد معيار، بل خطوة نحو مستقبل أكثر تقدمًا في مجال توليد المشاهد الصوتية والمرئية المدعومة بالفيزياء. للحصول على مزيد من المعلومات، يمكنكم زيارة الرابط. ما رأيكم في هذا التقدم الجديد في مجال الذكاء الاصطناعي؟ شاركونا في التعليقات!