في عالم الذكاء الاصطناعي، تعد خوارزميات توجيه المكافآت (Reward Guidance Algorithms) محركاً رئيسياً لتعزيز فعالية النماذج التوليدية خلال مرحلة الاستدلال. إلا أن هذه التقنية، رغم كونها فعالة، تواجه تحديات كبيرة، منها ظاهرة تُعرف باسم "اختراق المكافآت" (Reward Hacking)، حيث يفرط النموذج في تحسين المكافأة مما يؤثر سلباً على دقة توزيع البيانات المتعلم.

تُعزى هذه المشكلة في كثير من الأحيان إلى تعقيد وظائف المكافآت العصبية (Neural Reward Functions) أو الانحيازات الضمنية الناتجة عن تدريب التفريق (Diffusion Training)، لكن تبقى أصولها الجوهرية غير مفهومة بشكل كامل. من خلال أبحاثنا، أظهرنا أن اختراق المكافآت ينبع من نوع من التقدير يسمى "التقدير من الجزيئات المحدودة" (Finite-Particle Estimation) المستخدم في معظم التطبيقات العملية.

لقد عزلنا حالتين فشل متمايزتين في هذا التقدير: الأولى تؤدي إلى اختراق المكافآت داخل كل حالة، والثانية تمنع اختيار حالات ذات مكافآت عالية. استجابةً لهذه التحديات، اقترحنا جدول نزول المكافأة (Reward Damping Schedule) الذي يصحح انحياز الحالة الداخلية دون الحاجة إلى موارد حوسبية إضافية.

تؤكد التجارب التي أجريناها على أهداف منفصلة Gaussian، وكذلك على التوليد من النص إلى الصورة باستخدام FLUX.1، أن الأفكار النظرية المستنبطة لها آثار واسعة النطاق في الإعدادات العملية. إذن، كيف يمكننا استغلال هذه الأفكار لتحسين النماذج المستقبلية؟ لنستمر في مناقشة هذه التطورات.