في الوقت الذي يشهد فيه عالم القيادة الذاتية تقدمًا مذهلاً، يبقى الاستكشاف في بيئات التعلم العميق (Reinforcement Learning) محفوفًا بالمخاطر. يتعين على الوكلاء (Agents) خوض تجارب جديدة لتعلم مهارات القيادة، لكن هذا السعي قد يؤدي إلى حوادث وعواقب سلبية.

في هذا السياق، تم تقديم إطار عمل مبتكر يُعرف باسم "الإطار المعتمد على عدم اليقين"، الذي يستخدم نصائح من خبراء لتوجيه عملية الاستكشاف، بينما يتجنب الاعتماد طويل الأمد على هذه النصائح. تُفعل النصائح عندما تتجاوز مستويات عدم اليقين (Epistemic or Aleatoric Uncertainty) حدودًا متكيفة تم اشتقاقها من بيانات متتالية، مما يضمن تطور النصائح وفقًا لثقة الوكيل.

يعتمد الإطار على استراتيجية "الالتزام والهدنة" (Commitment-Cooldown)، مدعومًا بخوارزمية توقف مبكر عشوائية، مما ينظم مدة وفترات النصائح المقدمة. هذا يُمكن الوكيل من تعرضه لمناورات متسقة دون استنزاف الميزانية الخاصة بالنصائح.

تم دمج تجارب الخبراء والوكلاء ضمن مخزن إعادة تشغيل مشترك ضمن قاعدة بيانات الشبكة الكمية الضمنية (Implicit Quantile Network) التي لا تعتمد على السياسة، مما يسهل إعادة استخدام المسارات الخبيرة بشكل فعال.

تظهر تجارب أجريت في بيئة CARLA أن الطريقة المقترحة تتفوق على معيار IQN التقليدي، حيث تحسن النجاح بنسبة 5-7% وتقلل من الحوادث. مما يؤدي إلى استكشاف أكثر أمانًا وكفاءة للسياسات المعتمدة على الاستشعار في مجالات تقاطعات غير مُشار إليها.