في عالم سريع التطور للتكنولوجيا، حيث أصبحت نماذج الفيديو التوليدية (Generative Video Models) تأخذ مركز الصدارة كنماذج مختصرة تفهم العالم من حولنا، كان التحدي الأكبر يكمن في تقييم دقة هذه النماذج في إنتاج هياكل وحركات ثلاثية الأبعاد دقيقة. هذه المهمة معقدة للغاية، إذ تعتمد الأنظمة الحالية على أحكام الإنسان أو مقاييس تعلم الآلة التي قد تكون غير موضوعية. ولكن الآن، نحن أمام تحول جديد بفضل الإطار الذي تم تقديمه تحت اسم PDI-Bench (مؤشر تشويه المنظور)؛ وهو إطار كمي متقدم يركز على تقييم التناسق الهندسي في الفيديوهات المولدة.

يدخل PDI-Bench في تفاصيل كيفية حصوله على مشاهد متعلقة بالأجسام عبر تقنيات مثل القطع (Segmentation) وتتبع النقاط (Point Tracking)، ليقوم بعد ذلك برفع هذه الملاحظات إلى إحداثيات ثلاثية الأبعاد عبر إعادة البناء الأحادي (Monocular Reconstruction). هذا الإطار الحسابي يقوم بحساب مجموعة من الأخطاء المتعلقة بالهندسة الإسقاطية التي تغطي ثلاثة أبعاد رئيسة: توافق العمق بالمقياس، اتساق الحركة الثلاثية الأبعاد، وصرامة البنية الثلاثية الأبعاد.

ولتعزيز تقييم منهجي، قام فريق البحث ببناء مجموعة بيانات PDI-Dataset، والتي تشمل سيناريوهات متنوعة مصممة لضغط هذه القيود الهندسية. ومن المثير للاهتمام أن أداة PDI تكشف عن أنماط أخطاء هندسية متسقة عبر مولدات الفيديو الرائدة، وهي أنماط لا تلتقطها المقاييس الحسية الشائعة. كما تقدم هذه الأداة إشارة تشخيصية نحو التقدم في توليد فيديوهات مبنية على الأرضيات الفيزيائية.

للاستفادة من هذا الإطار المتطور، يمكن الاطلاع على الكود ومجموعة البيانات المتاحة على [https://pdi-bench.github.io/]. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.