في عالم التعلم الآلي، تعتبر مخططات الانتشار (Diffusion Planners) من الأساليب القوية المستخدمة في التعلم التعزيزي غير المتصل (Offline Reinforcement Learning). لكن، قد تواجه هذه المخططات تحديات كبيرة عندما تفضل العمليات القائمة على القيمة مسارات قد تكون متسقة محليًا مع ديناميات البيئة، مما يؤدي إلى تنفيذ ضعيف أو غير موثوق. للحل، تم تقديم تقنية جديدة تُعرف ب ساج (Self-supervised Action Gating with Energies) التي تمثل خطوة مبتكرة نحو تعزيز هذه المخططات.

تسعى تقنية SAGE، المعتمدة على إعادة تصنيف المخططات أثناء مرحلة الاستدلال، إلى تقليل العقوبات على الخطط المتسقة ديناميكيًا عن طريق استخدام إشارة اتساق كامنة. تعتمد هذه التقنية على تدريب معمارية تشفير مشتركة (Joint-Embedding Predictive Architecture - JEPA) بحيث تستقبل سلاسل الحالات غير المتصلة وتنبؤات الحركة السريعة.

تعتمد آلية العمل في SAGE خلال مرحلة الاختبار على تعيين كل مرشح حمولة طاقة معينة بناءً على خطأ التنبؤ الكامن، ثم يتم دمج هذه النتيجة مع تقديرات القيمة لاختيار الإجراءات المناسبة. ما يميز SAGE هو قدرتها على الاندماج بسهولة في خطوط إنتاج المخططات الحالية، مما يسمح لها بالاستفادة من تقييمات القيمة وتجنب الحاجة إلى إعادة تدريب السياسة أو المرور بعمليات محاكاة للبيئة.

بناءً على النتائج التي تم الحصول عليها من تجارب في مجالات الحركة والملاحة والتلاعب، أثبتت تقنية SAGE أنها تعزز من أداء وموثوقية مخططات الانتشار، ما يعد خطوة مهمة في تطوير أنظمة أكثر ذكاءً وفاعلية في التعلم الآلي.