تعتبر توقعات نوايا وسلوك المشاة من العناصر الأساسية لضمان نشر أنظمة القيادة الذاتية بشكل آمن وفعّال. إذ تؤثر هذه التوقعات بشكل مباشر على قرارات الملاحة في بيئات المرور المعقدة. وفي هذا السياق، قدمت الأبحاث الأخيرة في نماذج الرؤية واللغة (Vision-Language Models) نموذجًا جديدًا وقويًا لهذه المهام، حيث تجمع بين الفهم العميق للمحتوى البصري والقدرة على التفكير بلغة طبيعية مرنة.
اليوم، نعلن عن إطلاق PedestrianQA، وهي مجموعة بيانات تتجاوز التقليدية، حيث تعيد صياغة توقعات نوايا وسلوك المشاة كمهمة للإجابة على الأسئلة مرفقة بتفسيرات هيكلية. تتضمن PedestrianQA تسلسلات مشاة موضحة بشكل دقيق باللغة الطبيعية، مما يمكن نماذج الرؤية واللغة من التعلم من الديناميات البصرية، والإشارات السياقية، والتفاعلات بين عناصر المرور.
وبفضل إمكانيات التعلم المتقدمة، تستطيع هذه النماذج تقديم تفسيرات مختصرة لتوقعاتها دون الحاجة إلى هياكل معمارية متخصصة لكل مهمة. وقد أظهرت التقييمات التجريبية عبر مجموعة من المواقع مثل PIE، JAAD، TITAN، وIDD-PeD أن صقل نماذج الرؤية واللغة الحديثة على مجموعة بيانات PedestrianQA يُحسن بشكل ملحوظ من دقة تصنيف النوايا وتوقع سلوك المشاة، مما يبرز الإمكانيات الكبيرة لهذه النماذج كنموذج موحد وقابل للتفسير في نمذجة سلوك المشاة في بيئات تتطلب السلامة.
PEDESTRIANQA: ثورة جديدة في نماذج الرؤية واللغة لتوقع سلوك المشاة
تعرفوا على PedestrianQA، مجموعة بيانات مبتكرة تهدف إلى تحسين دقة توقعات سلوك المشاة في بيئات المرور. بدمج الرؤية مع اللغة، تمثل خطوة مهمة نحو تطوير السيارات الذاتية القيادة بشكل آمن.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
