تتقدم [تكنولوجيا [القيادة](/tag/القيادة) الذاتية](/tag/[تكنولوجيا](/tag/تكنولوجيا)-[القيادة](/tag/القيادة)-الذاتية) (Autonomous Driving) بشكل سريع بفضل [تدخل](/tag/تدخل) [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)) والرؤية ([Vision-Language Models](/tag/vision-language-models) - [VLMs](/tag/vlms)) التي تقدم إمكانية [التفكير](/tag/التفكير) بطريقة قريبة من البشر. لكن ما تزال هناك فجوات كبيرة بين ما هو متاح من هذه [النماذج](/tag/النماذج) والتطبيقات الفعلية للقيادة الذاتية.

أحد أبرز التحديات هو أن [البيانات](/tag/البيانات) المستخدمة حاليًا تحتوي على أوصاف لغوية غير منسقة، مما لا يجعلها صديقة للآلة، ويؤدي هذا إلى تكرار [المعلومات](/tag/المعلومات). علاوة على ذلك، يتطلب [تنفيذ](/tag/تنفيذ) [نماذج](/tag/نماذج) [VLMs](/tag/vlms) الحالية [طاقة](/tag/طاقة) حسابية ضخمة، مما يؤثر سلبًا على [سرعة](/tag/سرعة) [الاستنتاج](/tag/الاستنتاج) والقدرة على التطبيق في العالم الواقعي.

للتغلب على هذه التحديات، يقدم [البحث](/tag/البحث) الجديد نموذجًا منظمًا يسمى NuScenes-S، وهو [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) قائمة على [نموذج](/tag/نموذج) NuScenes، والذي يحتوي على [تمثيلات](/tag/تمثيلات) هيكلية صديقة للآلة.

كما يمهد النموذج الجديد FastDrive الطريق مع بنية بسيطة تتكون من 0.9 مليار معلمة، حيث يستطيع [فهم](/tag/فهم) الأوصاف الهيكلية وبسرعة عالية. مقارنةً بالنماذج الأخرى التي تحتوي على أكثر من 7 مليارات معلمة مثل LLaVA-1.5، يظهر FastDrive تفوقًا في [سرعة](/tag/سرعة) [الاستنتاج](/tag/الاستنتاج) بأكثر من 10 مرات، مع [تحسين](/tag/تحسين) نسبة [دقة](/tag/دقة) تصل إلى 20% في مهام [اتخاذ القرار](/tag/اتخاذ-القرار).

تتضمن الدراسات الإضافية تأثير [تعليمات](/tag/تعليمات) المشهد مثل حالة [الطقس](/tag/الطقس) والوقت على القرارات المتخذة، مما يثبت أهمية التفاصيل الصغيرة في [نجاح](/tag/نجاح) [القيادة الذاتية](/tag/[القيادة](/tag/القيادة)-الذاتية). تعد هذه النتائج خطوة هامة [نحو](/tag/نحو) [تحقيق](/tag/تحقيق) [تطبيقات](/tag/تطبيقات) واقعية أكثر فعالية للقيادة الذاتية في المستقبل.