في عصر [التكنولوجيا](/tag/التكنولوجيا) الحديثة، تعتبر عملية [توليد الصوتيات](/tag/[توليد](/tag/توليد)-[الصوتيات](/tag/الصوتيات)) المدعومة بالفيزياء بين النصوص والصور (Text-to-Audio-Video) محورًا أساسيًا للعديد من التطبيقات، مثل [صناعة](/tag/صناعة) [الأفلام](/tag/الأفلام) وتمثيل العالم الافتراضي. ولكن تواجه [النماذج](/tag/النماذج) الحالية [تحديات](/tag/تحديات) كبيرة في إنتاج أصوات تتماشى مع القوانين الفيزيائية.
لا تركز [المعايير](/tag/المعايير) السابقة بصورة أساسية على [تقييم](/tag/تقييم) [التفاعل](/tag/التفاعل) بين [الصوتيات](/tag/الصوتيات) والفيزياء، مما يقيد إمكانية [تطوير](/tag/تطوير) [أنظمة](/tag/أنظمة) [توليد](/tag/توليد) مرئية وصوتية متناسقة. ولذلك، تم تقديم PhyAVBench، الأول من نوعه لتقييم قدرات [النماذج](/tag/النماذج) في [تحقيق](/tag/تحقيق) هذا الهدف.
يتضمن PhyAVBench [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) جديدة، PhyAV-Sound-11K، التي تحتوي على 25.5 ساعة من الفيديوهات المسجلة من 11,605 مشاركًا، مع وجود 337 مجموعة من العبارات التي تمتلك اختلافات فيزيائية محددة. هذا [التقييم](/tag/التقييم) يقدم أيضًا اختبار الحساسية للصوتيات (Audio-[Physics](/tag/physics) Sensitivity Test - APST)، باستخدام [معيار جديد](/tag/معيار-[جديد](/tag/جديد)) يسمى درجة الاستجابة الفيزيائية التباينية (Contrastive Physical Response Score - CPRS) لتحديد مدى اتساق [الصوتيات](/tag/الصوتيات).
تم إجراء [تقييم](/tag/تقييم) شامل لـ 17 نموذجًا متقدمًا في هذا المجال، وأظهرت النتائج أن العديد من الطرازات الرائدة لا تزال تواجه صعوبات مع الظواهر الفيزيائية الأساسية. إن PhyAVBench ليس مجرد معيار، بل خطوة [نحو](/tag/نحو) [مستقبل](/tag/مستقبل) أكثر تقدمًا في مجال [توليد المشاهد](/tag/[توليد](/tag/توليد)-المشاهد) الصوتية والمرئية المدعومة بالفيزياء. للحصول على مزيد من المعلومات، يمكنكم زيارة [الرابط](https://github.com/imxtx/PhyAVBench). ما رأيكم في هذا التقدم الجديد في مجال [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي)؟ شاركونا في [التعليقات](/tag/التعليقات)!
PhyAVBench: ثورة في توليد الصوتيات المرهفة بين النص والصورة!
يقدم PhyAVBench معيارًا جديدًا يهدف إلى تحسين دقة توليد الصوتيات المدعومة بالفيزياء في التطبيقات الصوتية والمرئية. تكشف النتائج عن فجوات كبيرة في التقنيات الحالية، مما يفتح آفاقًا جديدة للبحث والتطوير.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
