في عصر [التكنولوجيا](/tag/التكنولوجيا) الحديثة، تعتبر عملية [توليد الصوتيات](/tag/[توليد](/tag/توليد)-[الصوتيات](/tag/الصوتيات)) المدعومة بالفيزياء بين النصوص والصور (Text-to-Audio-Video) محورًا أساسيًا للعديد من التطبيقات، مثل [صناعة](/tag/صناعة) [الأفلام](/tag/الأفلام) وتمثيل العالم الافتراضي. ولكن تواجه [النماذج](/tag/النماذج) الحالية [تحديات](/tag/تحديات) كبيرة في إنتاج أصوات تتماشى مع القوانين الفيزيائية.

لا تركز [المعايير](/tag/المعايير) السابقة بصورة أساسية على [تقييم](/tag/تقييم) [التفاعل](/tag/التفاعل) بين [الصوتيات](/tag/الصوتيات) والفيزياء، مما يقيد إمكانية [تطوير](/tag/تطوير) [أنظمة](/tag/أنظمة) [توليد](/tag/توليد) مرئية وصوتية متناسقة. ولذلك، تم تقديم PhyAVBench، الأول من نوعه لتقييم قدرات [النماذج](/tag/النماذج) في [تحقيق](/tag/تحقيق) هذا الهدف.

يتضمن PhyAVBench [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) جديدة، PhyAV-Sound-11K، التي تحتوي على 25.5 ساعة من الفيديوهات المسجلة من 11,605 مشاركًا، مع وجود 337 مجموعة من العبارات التي تمتلك اختلافات فيزيائية محددة. هذا [التقييم](/tag/التقييم) يقدم أيضًا اختبار الحساسية للصوتيات (Audio-[Physics](/tag/physics) Sensitivity Test - APST)، باستخدام [معيار جديد](/tag/معيار-[جديد](/tag/جديد)) يسمى درجة الاستجابة الفيزيائية التباينية (Contrastive Physical Response Score - CPRS) لتحديد مدى اتساق [الصوتيات](/tag/الصوتيات).

تم إجراء [تقييم](/tag/تقييم) شامل لـ 17 نموذجًا متقدمًا في هذا المجال، وأظهرت النتائج أن العديد من الطرازات الرائدة لا تزال تواجه صعوبات مع الظواهر الفيزيائية الأساسية. إن PhyAVBench ليس مجرد معيار، بل خطوة [نحو](/tag/نحو) [مستقبل](/tag/مستقبل) أكثر تقدمًا في مجال [توليد المشاهد](/tag/[توليد](/tag/توليد)-المشاهد) الصوتية والمرئية المدعومة بالفيزياء. للحصول على مزيد من المعلومات، يمكنكم زيارة [الرابط](https://github.com/imxtx/PhyAVBench). ما رأيكم في هذا التقدم الجديد في مجال [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي)؟ شاركونا في [التعليقات](/tag/التعليقات)!