في عالم سريع التغير، يعد الفهم الجيد للمخاطر جزءًا حيويًا لضمان سلامة نظام القيادة الذاتية. وقد أثبتت نماذج اللغة متعددة الوسائط الحديثة (Multimodal Large Language Models - MLLMs) قدرتها على فهم المشاهد أثناء القيادة، ولكن لا تزال تواجه تحديات كبيرة مرتبطة بالدقة الزمنية والمكانية.
أطلق الباحثون مؤخرًا مشروع UniDrive، الإطار المتكامل الذي يهدف إلى تحسين فهم المخاطر من خلال دمج تحليل الرؤية واللغة. يجمع UniDrive بين فرعين رئيسيين: فرع لتحليل الزمن الذي يدرس ديناميكيات المشهد باستخدام إدخالات بصرية متعددة الإطارات، وفرع إدراكي عالي الدقة يحافظ على التفاصيل الدقيقة من الإطار الأحدث.
يتميز UniDrive بنموذج دمج من خلال عملية انتباه متبادل (Gated Cross-Attention Fusion) تتيح توظيف السياق الديناميكي مع الأدلة المكانية الدقيقة. وهذا يمكّن النظام من توليد أوصاف المخاطر بشكل دقيق ومتناغم، مع إنشاء إطارات مدمجة لمخاطر محتملة.
أثبتت التجارب على قاعدة بيانات DRAMA-Reasoning أن UniDrive يتفوق بشكل ملحوظ على نماذج أخرى تعتمد على الصور أو الفيديو، محققًا أداءً استثنائيًا في تحديد الكائنات الصغيرة والتعميم السريع. وتظهر النتائج أن الجمع بين الدلالات الزمنية والإدراك عالي الدقة يشكل أساسًا قويًا لنظم قيادة ذاتية تعزز من الأمان والفهم.
لمزيد من التفاصيل، يمكنكم زيارة الصفحة الرسمية على GitHub واستكشاف كود UniDrive.
اكتشاف المخاطر في القيادة الذاتية: إطار عمل UniDrive يجمع بين الرؤية واللغة بشكل مبتكر
يقدم UniDrive إطاراً موحداً لفهم المخاطر باستخدام تقنيات الرؤية واللغة في القيادة الذاتية. يحقق النظام الجديد توازناً بين الدقة الزمانية والمكانية، مما يحسن من إمكانية التحكم في مواقف القيادة الحرجة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
