في عالم الذكاء الاصطناعي، تُعتبر مهمة الإجابة عن الأسئلة المتعلقة بالمشاهد الفيديوية من منظور الشخص الأول (egocentric video) من أكثر التحديات تعقيدًا. وتتطلب هذه المهمة [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة) ([Vision-Language Models](/tag/vision-language-models) - [VLMs](/tag/vlms)) للتفكير في مواقع الأجسام ثلاثية الأبعاد، وتفسير المشاهد، والعلاقات الاتجاهية، خاصة في حالة "الحد الأدنى من [التدريب](/tag/التدريب)" (zero-shot) حيث لا يتوفر [تدريب](/tag/تدريب) خاص بالمهام.
هنا تأتي أهمية [تقنية](/tag/تقنية) سباتيو روت (SpatioRoute) الجديدة، التي تم تطويرها كحل مبتكر يتمثل في إنشاء مسارات [ديناميكية](/tag/ديناميكية) للأسئلة، مما يوفر تأطيرًا مخصصًا لكل سؤال دون الحاجة إلى [تدريب](/tag/تدريب) إضافي أو مدخلات من [أجهزة](/tag/أجهزة) [استشعار](/tag/استشعار) ثلاثية الأبعاد.
تعمل سباتيو روت في وضعين متكاملين:
1. **سباتيو روت-آر (SpatioRoute-R)**: وهو نظام [توجيه](/tag/توجيه) قائم على القواعد يُستخدم لتحديد أنواع الأسئلة المختلفة مثل (ما، هل، كيف، هل يمكن، أيهما) وتوجيهها إلى قوالب مخصصة.
2. **سباتيو روت-إل (SpatioRoute-L)**: يركز على إنشاء استجابات مخصصة تعتمد فقط على [محتوى](/tag/محتوى) السؤال والسياق المحيط، بدون الحاجة إلى مدخلات [فيديو](/tag/فيديو) في مرحلة [التوجيه](/tag/التوجيه).
أثبتت [الأبحاث](/tag/الأبحاث) التي أجريت على معيار SQA3D أن سباتيو روت [تحقق](/tag/تحقق) [تحسينات](/tag/تحسينات) دائمة في [الدقة](/tag/الدقة) تصل إلى 5% مقارنة بالأساليب التقليدية الثابتة، مما يجعلها رائدة في مجال الفيديوهات بدون الاعتماد على مدخلات الأشكال ثلاثية الأبعاد.
علاوة على ذلك، أثبتت النتائج أن [تقنية](/tag/تقنية) [Chain-of-Thought](/tag/chain-of-thought) (CoT) لا تُحسن [الأداء](/tag/الأداء) في هذا [السياق](/tag/السياق) بالنسبة لنماذج سلسلة Qwen، مما يقوي فكرة أن [توجيه](/tag/توجيه) الأسئلة المعتمد على [المعرفة](/tag/المعرفة) [أداة](/tag/أداة) أكثر فعالية من التفسيرات الموحدة في [فهم الفيديوهات](/tag/[فهم](/tag/فهم)-الفيديوهات) ذات الأبعاد المكانية.
سباتيو روت: ثورة جديدة في أسئلة الفضاء باستخدام نموذج توجيه ذكي
تقدم سباتيو روت (SpatioRoute) تقنية جديدة في معالجة الأسئلة المتعلقة بالفيديو من منظور الشخص الأول، من دون الحاجة لتدريب مخصص أو أجهزة استشعار ثلاثية الأبعاد. تُظهر النتائج تحقيق دقة أعلى بنسبة تصل إلى 5% مقارنةً بالأساليب التقليدية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
