في عالم الذكاء الاصطناعي، تُعتبر مهمة الإجابة عن الأسئلة المتعلقة بالمشاهد الفيديوية من منظور الشخص الأول (egocentric video) من أكثر التحديات تعقيدًا. وتتطلب هذه المهمة نماذج الرؤية واللغة (Vision-Language Models - VLMs) للتفكير في مواقع الأجسام ثلاثية الأبعاد، وتفسير المشاهد، والعلاقات الاتجاهية، خاصة في حالة "الحد الأدنى من التدريب" (zero-shot) حيث لا يتوفر تدريب خاص بالمهام.
هنا تأتي أهمية تقنية سباتيو روت (SpatioRoute) الجديدة، التي تم تطويرها كحل مبتكر يتمثل في إنشاء مسارات ديناميكية للأسئلة، مما يوفر تأطيرًا مخصصًا لكل سؤال دون الحاجة إلى تدريب إضافي أو مدخلات من أجهزة استشعار ثلاثية الأبعاد.
تعمل سباتيو روت في وضعين متكاملين:
1. **سباتيو روت-آر (SpatioRoute-R)**: وهو نظام توجيه قائم على القواعد يُستخدم لتحديد أنواع الأسئلة المختلفة مثل (ما، هل، كيف، هل يمكن، أيهما) وتوجيهها إلى قوالب مخصصة.
2. **سباتيو روت-إل (SpatioRoute-L)**: يركز على إنشاء استجابات مخصصة تعتمد فقط على محتوى السؤال والسياق المحيط، بدون الحاجة إلى مدخلات فيديو في مرحلة التوجيه.
أثبتت الأبحاث التي أجريت على معيار SQA3D أن سباتيو روت تحقق تحسينات دائمة في الدقة تصل إلى 5% مقارنة بالأساليب التقليدية الثابتة، مما يجعلها رائدة في مجال الفيديوهات بدون الاعتماد على مدخلات الأشكال ثلاثية الأبعاد.
علاوة على ذلك، أثبتت النتائج أن تقنية Chain-of-Thought (CoT) لا تُحسن الأداء في هذا السياق بالنسبة لنماذج سلسلة Qwen، مما يقوي فكرة أن توجيه الأسئلة المعتمد على المعرفة أداة أكثر فعالية من التفسيرات الموحدة في فهم الفيديوهات ذات الأبعاد المكانية.
سباتيو روت: ثورة جديدة في أسئلة الفضاء باستخدام نموذج توجيه ذكي
تقدم سباتيو روت (SpatioRoute) تقنية جديدة في معالجة الأسئلة المتعلقة بالفيديو من منظور الشخص الأول، من دون الحاجة لتدريب مخصص أو أجهزة استشعار ثلاثية الأبعاد. تُظهر النتائج تحقيق دقة أعلى بنسبة تصل إلى 5% مقارنةً بالأساليب التقليدية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
