في عالم التكنولوجيا المتقدمة، كيف يمكننا تحسين نماذج الفيديو لتكون أكثر كفاءة وفعالية؟ أظهر البحث الأخير حول استخدام الحركة كآلية مركزية لتكوين تمثيل الفيديو حلولاً مستقبلية واعدة. على الرغم من التقدم الكبير في تعلم تمثيل الفيديو في السنوات الأخيرة، إلا أن هناك تحديات تغمر هذا المجال، حيث تتكبد نماذج الفيديو تكاليف مرتفعة عند زيادة بيانات التدريب، وتأخذ في الاعتبار توجيهات اللغة التي تحد من نطاق المفاهيم القابلة للتعلم.

البحث الجديد يقترح نموذجًا مبتكرًا يستخدم الحركات الموجودة في الفيديو، وذلك من خلال تتبع النقاط، مع تطبيق خوارزمية "المشفّر الذاتي المقنع" (Masked Autoencoder) لتغطية بعض المسارات وتعليم النموذج على إعادة بناء المسارات المفقودة. من خلال هذا النهج، يمكننا أن نتعلم تمثيلًا في طريقة ذاتية الإشراف. التجارب أظهرت أنه من خلال هذا الاستخدام الفريد للحركة، تنجح نماذج الفيديو في تجاوز التحديات الأساسية.

بالإضافة إلى تقليل كمية بيانات التدريب المطلوبة، لأن الحركة تعتمد على الملاحظات البصرية بشكل أقل، فإنها تتيح أيضًا تجاوز إطار عمل التدريب القائم على اللغة، مما يعزز التعلم الدقيق للمفاهيم. هذه المساعي أدت إلى تطوير تمثيل جديد يسمى "التمثيل الزمني المدعوم بالحركة" (TIME - Temporally Informed Motion Embedding)، والذي تم تدريبه بالكامل على بيانات الحركة الاصطناعية.

اختبر هذا التمثيل في مجموعة واسعة من المهام بطريقة "عدم وجود بيانات مسبقة" (Zero-shot)، وظهر أن أداءه يعادل أداء النماذج المتقدمة الأخرى، رغم أنه استخدم بيانات تدريب أقل بأربعة أوامر. يمثل هذا البحث خطوة نحو نماذج فيديو أكثر وعياً زمنياً وفعالية من حيث التكاليف.