تطور عالم القيادة الذاتية ليصبح أكثر تقدمًا، حيث تمثل عملية تقييم سلوك القيادة تحديًا كبيرًا في ظل الاعتماد على تقنيات التعلم الشامل (End-to-End Policy Learning). من المعروف أن جودة القيادة تعتمد بشكل كبير على السياقات المختلفة، مما يجعل التقييم الدقيق أمرًا أساسياً.

في الوقت الحالي، نعتمد على مقاييس تقليدية وقائم على القواعد مثل EPDMS، ورغم قدرتها على توضيح النتائج، إلا أنها تفتقر إلى الوعي بالسياق. بينما توفر التقييمات الحديثة المعتمدة على نماذج الرؤية واللغة (Vision-Language Models) وعيًا أكبر بالسياق، إلا أنها غالبًا ما تعاني من مخرجات غامضة وضعف في التثبيت الفيزيائي.

لذلك، تم تقديم DriveJudge كأداة تقييم جديدة، حيث تجمع بين تقييم يعتمد على القواعد وفهم عناصر السياق بواسطة نماذج الرؤية واللغة، وتستدعي الوظائف القاعدية الفيزيائية بعد تحليل السياق البيئي.

لتحقيق هذا الهدف، تم إعداد مجموعة بيانات ضخمة تحتوي على 33,577 نموذج قيادة تم تقييم سلوكها من قبل البشر لتحديد ما إذا كانت سلوكيات القيادة معقولة في السياقات المحددة. من خلال هذه المجموعة، تمكنا من معالجة مشكلة غير مستكشفة في تقييم مقاييس القيادة وقدمنا مهمتين مع benchmark بشري-متوافق: تصنيف جودة القيادة واختيار تفضيلات المسار.

أثبت DriveJudge تفوقه على EPDMS بنسبة 21.23 AUC في تصنيف جودة القيادة، وكذلك على نموذج DriveCritic المعتمد على نماذج الرؤية واللغة في اختيار تفضيلات المسار بنسبة 6.5%. لقد أصبح DriveJudge هو المعيار الجديد لتقييم القيادة القائم على الفهم والدقة.