في عالم الذكاء الاصطناعي، يُعتبر التعلم المعزز (Reinforcement Learning) من أبرز المجالات التي شهدت تقدمًا ملحوظًا. ومع ذلك، تواجه أنظمة التعلم المعزز تحديات جسيمة عند محاولة التعلم من الفيديوهات الخبيرة المنتجة عبر مجالات بصرية مختلفة. فقد يؤدي غياب إشارات المكافأة (Reward Signals) والاختلافات الجذرية بين المجالات إلى تعقيد هذه العملية.

قدّم الباحثون نموذجًا مبتكرًا يُعرف باسم XIPER، الذي يرمز إلى "نموذج مكافأة توقع الفيديو عبر المجالات" (Cross-domain Video Prediction Reward). يهدف هذا النموذج إلى تسهيل التعلم من الفيديوهات الخبيرة المجمعة من مجالات بصرية مختلفة، حيث يمكن أن تختلف ملامح الوكيل (Agent) بسبب عوامل مثل اللون، الشكل، أو الفجوة بين المحاكاة والواقع.

يعمل نموذج XIPER على تدريب نموذج توقع الفيديو عبر المجالات، حيث يقوم بتحويل ملاحظات الوكيل إلى مجال الخبير ويستخدم احتمال التوقع كإشارة مكافأة. أظهرت التجارب على مجموعة مهام DMC Color وDMC Body أن XIPER يتفوق باستمرار على الأسس السابقة، مما يدل على فعاليته في تجاوز الفجوات المكانية بين الألوان والأشكال.

علاوة على ذلك، تم تحليل نموذج XIPER على مجموعة بيانات انتقال من المحاكاة إلى الواقع، حيث أثبت أن بإمكانه تقديم إشارات مكافأة ذات معنى لملاحظات الروبوتات الحقيقية بناءً على فيديوهات خبير محاكية فقط. للمزيد عن هذا النموذج المتقدم، يمكنك زيارة صفحتنا على الويب حيث ستجد التعليمات البرمجية، النماذج محملة مسبقًا، مجموعات البيانات، وعروض الفيديو.