في عالم الذكاء الاصطناعي، تُعتبر عملية تعلم الوظائف المكافأة من العروض التوضيحية (Demonstrations) أمراً أساسياً، حيث يُفترض أن هذه العروض تُوفر إشرافاً كافياً على جميع السمات ذات الصلة بالسلوك. ومع ذلك، تُواجه هذه العروض تحديات عديدة، إذ قد يقوم البشر بتقليل التركيز على سمات معينة بسبب الحمل الذهني أو الصعوبات البدنية، مما يؤدي إلى قصور في التغطية لكافة المواقف ذات الصلة.

نتيجة لذلك، قد تبقى بعض السمات غير المحددة بدقة، مما يُسبب غموضًا في الوظائف المكافأة المتعلمة وسلوكيات غير متوافقة عند التنفيذ. هنا يأتي دور إطار العمل الجديد الذي يكتشف هذه السمات غير المحددة ويطلب بشكل نشط عروض توضيحية تصحيحية موجهة.

الفكرة الأساسية تكمن في أن العروض التوضيحية تكشف ضمناً عن السمات التي تم تحديدها بصورة جيدة: السمات التي يتم تحسينها باستمرار تظهر القليل من التباين عبر العروض التوضيحية، في حين أن السمات غير المحددة تتنوع بشكل واسع. وباستخدام هذه الإشارة الإحصائية، يُمكن استنتاج السمات التي ربما لم يتم عرضها بشكل كافٍ.

بعد ذلك، يقوم الروبوت بشرح السمات التي يشعر بعدم اليقين تجاهها بلغة طبيعية، واستعلام عن العروض التوضيحية التي تعالج الفجوات المحددة. لقد تم تقييم نهجنا في بيئة محاكاة للتلاعب على الطاولة، وفي دراسة مستخدم مع روبوت فرانكا الحقيقي. حيث أظهرت الاستفسارات الموجهة المدعومة بالشروحات تحسناً ملحوظاً في استعادة المكافآت مقارنةً بالاستفسارات العشوائية وجمع البيانات بشكل سلبي، مما ساهم في تقليل الغموض الذي قد يستمر عند التعلم من العروض التوضيحية الغير كاملة.