في عالم الذكاء الاصطناعي، تُعتبر مهمة الإجابة عن الأسئلة المتعلقة بالمشاهد الفيديوية من منظور الشخص الأول (egocentric video) من أكثر التحديات تعقيدًا. وتتطلب هذه المهمة [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة) ([Vision-Language Models](/tag/vision-language-models) - [VLMs](/tag/vlms)) للتفكير في مواقع الأجسام ثلاثية الأبعاد، وتفسير المشاهد، والعلاقات الاتجاهية، خاصة في حالة "الحد الأدنى من [التدريب](/tag/التدريب)" (zero-shot) حيث لا يتوفر [تدريب](/tag/تدريب) خاص بالمهام.

هنا تأتي أهمية [تقنية](/tag/تقنية) سباتيو روت (SpatioRoute) الجديدة، التي تم تطويرها كحل مبتكر يتمثل في إنشاء مسارات [ديناميكية](/tag/ديناميكية) للأسئلة، مما يوفر تأطيرًا مخصصًا لكل سؤال دون الحاجة إلى [تدريب](/tag/تدريب) إضافي أو مدخلات من [أجهزة](/tag/أجهزة) [استشعار](/tag/استشعار) ثلاثية الأبعاد.

تعمل سباتيو روت في وضعين متكاملين:
1. **سباتيو روت-آر (SpatioRoute-R)**: وهو نظام [توجيه](/tag/توجيه) قائم على القواعد يُستخدم لتحديد أنواع الأسئلة المختلفة مثل (ما، هل، كيف، هل يمكن، أيهما) وتوجيهها إلى قوالب مخصصة.
2. **سباتيو روت-إل (SpatioRoute-L)**: يركز على إنشاء استجابات مخصصة تعتمد فقط على [محتوى](/tag/محتوى) السؤال والسياق المحيط، بدون الحاجة إلى مدخلات [فيديو](/tag/فيديو) في مرحلة [التوجيه](/tag/التوجيه).

أثبتت [الأبحاث](/tag/الأبحاث) التي أجريت على معيار SQA3D أن سباتيو روت [تحقق](/tag/تحقق) [تحسينات](/tag/تحسينات) دائمة في [الدقة](/tag/الدقة) تصل إلى 5% مقارنة بالأساليب التقليدية الثابتة، مما يجعلها رائدة في مجال الفيديوهات بدون الاعتماد على مدخلات الأشكال ثلاثية الأبعاد.

علاوة على ذلك، أثبتت النتائج أن [تقنية](/tag/تقنية) [Chain-of-Thought](/tag/chain-of-thought) (CoT) لا تُحسن [الأداء](/tag/الأداء) في هذا [السياق](/tag/السياق) بالنسبة لنماذج سلسلة Qwen، مما يقوي فكرة أن [توجيه](/tag/توجيه) الأسئلة المعتمد على [المعرفة](/tag/المعرفة) [أداة](/tag/أداة) أكثر فعالية من التفسيرات الموحدة في [فهم الفيديوهات](/tag/[فهم](/tag/فهم)-الفيديوهات) ذات الأبعاد المكانية.