في عالم التكنولوجيا الحديثة، تتطور نماذج توليد الصوت والفيديو بسرعة مذهلة، ولكن هل تتمتع هذه النماذج بفهم حقيقي للفيزياء الصوتية والمرئية؟ السؤال الذي يطرحه الباحثون هو: هل هي قادرة على خلق مخرجات تتفق مع القوانين الفيزيائية، أم أن ما تقدمه مجرد توليد زائف لأصوات وصور متناسقة؟

بهدف تقييم هذا الفهم، تم تطوير معيار جديد يُعرف بـ AV-Phys Bench، والذي يهدف إلى اختبار الفهم الفيزيائي في نماذج توليد الصوت والفيديو المشتركة. يشمل هذا المعيار مجموعة متنوعة من سيناريوهات المشهد، منها حالات مستقرة (Steady State)، وانتقالات الأحداث (Event Transition)، وانتقالات البيئات (Environment Transition). كما يغطي تصنيفات فرعية مدعومة بالفيزياء مستمدة من المشاهد الواقعية، بالإضافة إلى مطالبات Anti-AV-Physics التي تهدف إلى طلب سلوكيات غير متسقة في توليد الصوت والفيديو.

تُقيَّم كل توليد عبر خمسة أبعاد: الالتزام الدلالي البصري، الالتزام الدلالي الصوتي، الفهم الفيزيائي البصري، الفهم الفيزيائي الصوتي والفهم الفيزيائي المتبادل. ومن خلال اختبارات على ثلاثة نماذج مملوكة وأربعة نماذج مفتوحة المصدر، يتضح أن نموذج Seedance 2.0 هو الأفضل بشكل عام. ومع ذلك، ما زالت جميع النماذج بعيدة عن تحقيق فهم عميق للفيزياء. كما لوحظ أن الأداء يتراجع بشكل حاد في حالات الانتقال المدفوعة بالأحداث والبيئات، حتى أن الأنظمة القوية تفشل في التعامل مع المطالبات غير المتسقة في الفيزياء.

لتعزيز عملية التقييم، تم تقديم AV-Phys Agent، وهو أداة تقييم تجمع بين نموذج لغوي متعدد الوسائط وأدوات قياس صوتية محددة، مما يؤدي إلى تصنيفات تتماشى مع تقييمات البشر. تكشف النتائج عن التحديات المفتوحة المرتبطة بالتناسق الفيزيائي المتبادل وديناميات المشهد المدفوعة بالانتقال.

إذا كان لديك فضول حول مستقبل التكنولوجيا وكيف ستؤثر هذه النماذج على حياتنا اليومية، فشاركنا رأيك في التعليقات! ما رأيكم في هذا التطور المذهل في فهم AI للفيزياء؟