شهدت الأبحاث في مجال فهم الفيديو تقدمًا كبيرًا في السنوات الأخيرة، مدفوعًا بتنوع البيانات وأقوى النماذج المعمارية. في حين أن العديد من الدراسات السابقة كانت تقيم التقدم بناءً على المهام أو المعايير أو فئات النماذج، إلا أنها غالباً ما توفر نظرة محدودة حول سبب ظهور وتفوق هياكل معينة.

في هذا السياق، نعرض منظور يستند إلى بنية البيانات، الذي يربط بين هيكل البيانات، والتحيزات الاستدلالية (Inductive Biases)، والتصميم المعماري ضمن إطار عمل موحد. فكل مجموعة بيانات تتطلب من النماذج التقاط تثبيتات وقدرات خاصة، مثل القدرة على مقاومة التغيرات في زوايا الرؤية، والحساسية لترتيب الزمن، وتحليل التفاعلات عبر مسافات طويلة، والتفاعلات العلائقية، والمحاذاة بين الأنماط المختلفة.

تترافق هذه المتطلبات بشكل طبيعي مع تحيزات استدلالية، أي افتراضات معمارية تفضل أنماط معينة من التفكير والتعميم. من هذه المنظور، يمكن فهم المعماريات البارزة مثل الشبكات ذات المسارين (Two-stream networks)، والشبكات العصبية التلافيفية ثلاثية الأبعاد (3D CNNs)، والنماذج الزمنية، والمحولات (Transformers)، والأساليب المعتمدة على الرسوم البيانية (Graph-based methods)، والنماذج متعددة النماذج كأساليب معمارية استجابًة للتحديات التي تطرحها البيانات المتطورة.

بالاستناد إلى هذا الإطار، نقوم بتحليل منهجي لكيفية تشكيل خصائص البيانات للابتكار المعماري عبر مهام فهم الفيديو، ومناقشة التحيزات التمثيلية التي تفرضها أنظمة البيانات المختلفة. من خلال توحيد البيانات، والتحيزات الاستدلالية، والهندسة المعمارية تحت منظور متماسك، يقدم هذا الاستطلاع شرحًا خلفيًا لتطور هذا المجال ويدعو لتطوير أنظمة فهم فيديو متعددة الأغراض في المستقبل.