في عصر يعتمد بشكل متزايد على تقنيات الذكاء الاصطناعي، تُواجه أنظمة النقل في المدن تحديات أمان خطيرة تتطلب ذكاءً قابلًا للتوسع في بنيتها التحتية الذكية. بالرغم من التقدم الأخير في نماذج الأساس (Foundation Models) ومجموعات البيانات متعددة الوسائط، لا تزال الأبحاث تدور بشكل أساسي حول القيادة الذاتية (Autonomous Driving) على المستوى المجهري، فيما يتم إغفال تحليل حركة المرور على نطاق المدينة.
أحد المحاور الجديدة في هذا المجال هو تقديم مجموعة بيانات جديدة تُعرف باسم مجموعة بيانات النقل البري (Land Transportation Dataset - LTD). تتمتع هذه المجموعة بحجم واسع، حيث تحتوي على 11.6 ألف زوج من أسئلة وإجابات بصرية عالية الجودة، تم جمعها من كاميرات على جانب الطرق والتي تغطي تنوعًا في هندسة الطرق، والمشاركين في حركة المرور، وظروف الإضاءة، والطقس السيء.
تجدر الإشارة إلى أن مجموعة بيانات LTD لا تقتصر فقط على مجموعة واحدة من المهام، بل تتضمن ثلاث مهام متكاملة: تحديد الموقع الدقيق لأكثر من كائن، اختيار الكاميرات المتعددة الصور، وتحليل المخاطر عبر الصور المتعددة. هذه المهام تتطلب توحيد التفكير عبر مشاهد مرتبطة بشكل ضئيل لاستخراج الكائنات الخطرة والعوامل المساهمة والإتجاهات الخطرة على الطرق.
لضمان دقة التوصيف، تم اللجوء إلى دمج توليد رؤية-لغة متعدد النماذج مع التحقق المتقاطع وتحسين المساعدة البشرية. وعلاوة على ذلك، اقترح الباحثون نموذج UniVLT، وهو نموذج أساسي للنقل يُدرَّب عبر نقل المعرفة المستند إلى المناهج، مما يتيح توحيد التفكير في القيادة الذاتية على المستوى المجهري وتحليل الحركة المرورية على المستوى الكلي ضمن بنية واحدة.
أظهرت التجارب التي أُجريت على مجموعة بيانات LTD والعديد من معايير القيادة الذاتية أن نموذج UniVLT يحقق أداءً متفوقًا في مهام التفكير المفتوح عبر مجالات متنوعة، بينما يكشف أيضًا عن نقاط ضعف النماذج الأساسية القائمة في سيناريوهات الحركة المرورية متعددة المشاهد.
نحو تنقل آمن: نموذج موحد لنظم النقل مدعوم ببيانات رؤية-لغة مفتوحة
تتطلب أنظمة النقل في المدن مواجهة تحديات أمان متزايدة، ولذا تم تقديم مجموعة بيانات ضخمة لتعزيز الفهم المنطقي في حالات المرور. هذا التطور يعد خطوة مهمة نحو تحسين الأمان في البنية التحتية للمواصلات الذكية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
