في عصر يزداد فيه الاعتماد على التكنولوجيا في مجال القيادة الذاتية، يأتي النموذج الثوري Driving Visual Geometry Transformer (DVGT) ليحدث تحولاً جوهرياً في كيفية إدراك الجيومتري ثلاثي الأبعاد من المشاهد المرئية. حيث يُعتبر إدراك وإعادة بناء مشهد ثلاثي الأبعاد عنصراً أساسياً لتشغيل المركبات الذاتية القيادة، إلا أن النماذج الحالية لم تكن قادرة على تلبية احتياجات مختلف السيناريوهات وتكوينات الكاميرات.

يأتي DVGT ليملأ هذا الفراغ عبر إعادة بناء خريطة نقطية ثلاثية الأبعاد بغزارة من تسلسل لمدخلات بصرية متعددة الزوايا غير الموضوعة. تعتمد هذه التقنية على استخلاص الميزات المرئية لكل صورة باستخدام العمود الفقري DINO، ثم تستخدم آليات الانتباه المحلية والفضائية والزمانية لاستخراج العلاقات الهندسية عبر الصور.

بدلاً من الاعتماد على معلمات الكاميرا الدقيقة، يتمتع DVGT بالمرونة التي تجعله يعمل مع تكوينات كاميرات متنوعة. فالنموذج يتوقع مباشرةً الجيومتري المقاسة من تسلسلات الصور، مما يلغي الحاجة للتوافق اللاحق مع أجهزة الاستشعار الخارجية.

تم تدريب النموذج على مجموعة كبيرة من بيانات القيادة بما في ذلك nuScenes وOpenScene وWaymo وKITTI وDDAD، ليظهر أداءً متميزاً يتفوق على النماذج الحالية في مختلف السيناريوهات. يمكنك الاطلاع على الشيفرة المصدرية للنموذج عبر الرابط التالي: DVGT GitHub.

باختصار، يعد DVGT خطوة كبيرة نحو تحسين قدرات القيادة الذاتية باستخدام الذكاء الاصطناعي والرؤية الآلية. هل تعتقد أن هذه التقنيات ستغير شكل القيادة في المستقبل القريب؟ شاركونا آرائكم في التعليقات!