لقد أصبحت عملية الاصطفاف الذاتي (Autonomous Parking) واحدة من التحديات الرئيسية في عالم القيادة الذاتية، لكنها تعاني من محدوديات عديدة. حيث تعتمد الأساليب الحالية على تقنيات ذات طابع "صندوق أسود"، مما يجعل من الصعب فهمها واستيعابها. وهنا يأتي دور الابتكار الجديد المتمثل في ParkingTransformer، والذي يعد إطار عمل ثوري يدمج بين الإدراك المتعدد الرؤى (Multi-View Perception) وقدرة نماذج اللغة الكبيرة (Large Language Models) على فهم المشاهد.

تقوم فكرة ParkingTransformer على دمج استفسارات المسار (Trajectory Queries) مع ميزات الحالة غير المباشرة من نماذج اللغة، مما يسمح له بالتفاعل المباشر مع المعلومات التاريخية وبيانات المستشعرات الأولية. وهذا لا يتطلب استخدام تمثيلات كثيفة مثل Bird's View (BEV)، مما يبسط عملية التخطيط. ولتعزيز قدرة التفكير المكاني، يتم إدخال ترميز مكاني ثلاثي الأبعاد (3D Positional Encoding) ليضيف وعياً هندسياً في خطوات التخطيط.

كما تم تصميم آلية تدفق نوافذ ثابتة (Fixed-Window Streaming Mechanism) لمعالجة المعلومات التاريخية، مما يُحسن من كفاءة معالجة البيانات الزمنية الطويلة وسرعة الاستدلال. وأيضاً، يُستخدم استراتيجيات تفكيك تدريجي من خشن إلى دقيق (Coarse-to-Fine Decoding Strategy) لتحسين دقة التخطيط بشكل متزايد.

أجريت تجارب شاملة على محاكي CARLA ومنصات سيارات حقيقية، حيث حقق نظام ParkingTransformer نتائج مبهرة، مع درجة قيادة مقدارها 61.32 في محاكي CARLA ومعدل نجاح متوسط قدره 88.70% في التجارب الواقعية، مما يثبت فاعلية ونجاح الخوارزميات المقترحة. هل سيصبح ParkingTransformer هو الحل المثالي لمستقبل القيادة الذاتية؟ شاركونا آراءكم في التعليقات!