شهدت نماذج reasoning الخاصة بالفيديو تطورًا ملحوظًا مؤخرًا، حيث أصبحت تساهم بشكل أكبر في فهم الأحداث من خلال سلسلة من الأدلة المكانية والزمانية التي تحدد أماكن الأجسام في أوقات معينة. ومع ذلك، كانت هناك نقطة ضعف بارزة، وهي كيفية تواصل الحركة التي تربط المشاهد، مما يجعل من الصعب الإشراف على الادعاءات الديناميكية المرتبطة بالحركة أو التحقق منها، خصوصًا عندما لا تدعمها معلومات الفيديو.

هنا يأتي دور موشن-أو (Motion-o)، وهو عنصر جديد يعزز نماذج الرؤية-اللغة (Vision-Language Models). يقدم موشن-أو مفهوم reasoning المكاني الزمني للحركة (Spatial-Temporal-Trajectory) ويجعل الحركة بين المشاهد واضحة وقابلة للتحقق، مما يسهل فهم الديناميات المعقدة.

يوفر موشن-أو سلسلة من الأدلة الموصولة تُسمى سلسلة الحركة (Motion Chain of Thought)، والتي تعرض حركة الأجسام من خلال نظام يوضح الاتجاه والسرعة وتغير المقياس. من خلال تحسين التعليقات الزمانية-المكانية الصغيرة إلى مسارات مستمرة للأجسام، يمكن لنموذج موشن-أو تقييم الاستنتاجات بدقة أكبر.

تظهر التجارب على مجموعة متنوعة من المقاييس أن موشن-أو يحسن من دقة reasoning المرتبط بالحركة بشكل ملحوظ دون الحاجة إلى تغييرات معمارية. هذه النتائج تعد بتغيير الطريقة التي نفهم بها الفيديو، حيث تضيف واجهتين حركية واضحة إلى تدفقات العمل الحالية، مما يحول الديناميات غير المعلنة إلى أدلة يمكن التحقق منها. الكود المتعلق بهذا الابتكار متاح عبر [GitHub](https://github.com/ostadabbas/Motion-o).