في عالم القيادة الذاتية، يمثل تخطيط القيادة متعددة الأنماط تحديًا دائماً بين منهجيتين مختلفتين. من ناحية، تقدم الطرق المعتمدة على الدرجات (scoring-based methods) إشرافًا ثريًا وكثيفًا، بينما تعاني من محدودية المفردات الحركية الثابتة. ومن ناحية أخرى، تتيح الأساليب القائمة على نقاط التثبيت (anchor-based methods) إنشاء اقتراحات ديناميكية، لكنها غالبًا ما تفتقر إلى الإشراف الكافي، حيث تكون مقيدة بمسار واحد حقيقي.

مع إطلاق نموذج FlowR2A، يسعى الباحثون لحل هذا التوتر التقليدي من خلال إعادة صياغة المكافآت المستندة إلى المحاكاة من أهداف تمييزية إلى ظروف توليد. يعتمد النموذج الجديد على تعلم توزيع الإجراءات المشروطة بالمكافآت باستخدام زوج من المسارات والمكافآت مع جهاز فك ضغط (flow-matching decoder)، مما يوحد بين النموذج الإشرافي الكثيف والمقترحات الديناميكية في نموذج توليدي واحد.

يضمن FlowR2A تمكين النموذج من فهم العلاقة بين الإجراءات والعواقب من حيث السلامة والتقدم والراحة والامتثال للقواعد. وبهذا، يشمل تقديم مكافآت أكثر دقة على طول المسار، مما يُثري القيود الصارمة للسلامة بمقاصد ناعمة للتقدم.

من خلال إعادة صياغة المكافآت وتخفيف الضوضاء، يدعم النموذج توليد اقتراحات عالية الجودة أثناء الاختبار باستخدام إرشادات المكافآت وأخذ عينات مشروطة.

أدى ذلك إلى تحقيق FlowR2A نتائج غير مسبوقة على معايير NAVSIM v1 وv2، حيث أمّن مقترحات متعددة الأنماط أعلى جودة بشكل ملحوظ مقارنةً بالطرق السابقة. إن النسخة الجديدة من FlowR2A تمثل نجاحًا تكنولوجيًا بارزًا، والذي يدعو الجميع لمتابعة أحدث التطورات في عالم القيادة الذاتية والتفاعل معها.