في عالم اليوم، يعتبر فهم الأوامر اللغوية الطبيعية وتطبيقها في توجيه المركبات الذاتية القيادة (Autonomous Driving - AD) من التحديات الكبرى التي تواجه الذكاء الاصطناعي. كثيرًا ما تعاني الأساليب الحالية من صعوبة في التعامل مع الأوامر الغامضة أو ذات السياق المعتمد، وذلك لافتقارها إلى القدرة على التفكير في العلاقات المكانية الثلاثية الأبعاد وتوقع تطور المشهد.
مع ظهور مفهوم نماذج العالم (World Models)، تم تقديم إطار جديد يُدعى ThinkDeeper، الذي يعمل على التعامل مع المواقف المستقبلية قبل اتخاذ قرارات التوجيه. في جوهره، يوجد نموذج عالمي واعٍ بالمكان (Spatial-Aware World Model - SA-WM) الذي يتعلم كيف يتوقع من خلال اختزال المشهد الحالي إلى حالة كامنة واعية بالأوامر، ورسم سلسلة من الحالات المحتملة المستقبلية. هذا يتيح له توفير تلميحات مستقبلية تساعد على إزالة الغموض.
إضافةً إلى ذلك، تمتلك المنظومة مفسرًا موجهًا بواسطة الهيبرغراف (Hypergraph-Guided Decoder) الذي يدمج هذه الحالات بشكل هرمي مع المدخلات متعددة الوسائط، مما يسمح بالتقاط التبعيات المكانية العليا وعلى نحو أفضل.
كما تم تقديم مجموعة بيانات DrivePilot، وهي مجموعة بيانات متعددة المصادر تستند إلى استشعار الأوامر اللغوية في القيادة الذاتية، والتي تتميز بتعليقات تفسيرية تم إنشاؤها بواسطة نظام استرجاع مدعوم بالتوليد (Retrieval-Augmented Generation - RAG) ونموذج لغوي يعتمد على سلسلة من الأفكار (Chain-of-Thought - CoT).
من خلال تقييمات شاملة على ستة معايير، جاء إطار ThinkDeeper في المرتبة الأولى على قائمة Talk2Car وحقق نتائج تفوق الأساليب الحالية على معايير DrivePilot وMoCAD وRefCOCO/+/g. وكما لوحظ، فإنه يظهر كفاءة وفاعلية ملحوظة في المناظر الصعبة مثل النصوص الطويلة، والسيناريوهات متعددة الوكلاء، والقدرة على التعامل مع الغموض، ويثبت تفوق أدائه حتى عند التدريب على 50% فقط من البيانات.
قبل أن تقود: نموذج مبتكر لاستشعار الأوامر متعددة الوسائط للمركبات الذاتية القيادة
تقدم دراسة جديدة إطارًا مبتكرًا يسمى ThinkDeeper لتحسين التواصل بين الأوامر اللغوية والمكتسبات الحسية للمركبات الذاتية القيادة. يعكس هذا الحل تطورًا جديدًا في الطرق التي تتعامل بها هذه المركبات مع المشاهد المعقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
