في عالم الذكاء الاصطناعي، حيث تتزايد التحديات في معالجة المعلومات المعقدة، جاءت تقنية STARE (الوزن المعتمد على مفاجأة المزايا على مستوى الرموز) لتحدث فرقاً جوهرياً. تعتمد STARE على تحليل الديناميات التكرارية لسياسة التعلم المعزز (Reinforcement Learning) باستخدام خوارزميات مكافآت قابلة للتحقق مثل GRPO، لكن لا تخلو هذه الأنظمة من تحديات الانهيار في تباين السياسة خلال التدريب.

وكما أظهرت الدراسة، هناك خلل في توزيع الائتمانات على مستوى الرموز، مما يتسبب في تباين غير كافٍ في تباين الرموز. وهذا يبدو وكأنه لغز؛ لكن من خلال تحليل متعمق، تمكنا من تعريف هيكل رباعي المزايا-المفاجأة على مستوى الرموز. استجابةً لذلك، قدمت STARE نظاماً لتحليل رموز معينة بناءً على مفاجأة داخلية، مما يتيح إعادة وزن المزايا بطريقة تعزز استقرار التباين.

مع الاختبارات التي أجريت على نماذج تتراوح أحجامها من 1.5 مليار إلى 32 مليار، أظهرت STARE قدرة غير مسبوقة على تمرير التدريب المستقر عبر آلاف الخطوات، مع الحفاظ على تباين السياسة ضمن حدود محددة. وقد أثبتت التقنية كفاءة عالية، متفوقة على الخطوط الأساسية الأخرى بنسبة تتراوح بين 4% و8% في دقة الأداء. يُظهر هذا التقدم ميزات مثل استمرارية التوازن بين الاستكشاف والاستغلال، مما يفتح المجال أمام إمكانيات جديدة في التدريب باستخدام التعلم المعزز.

بالإضافة إلى ذلك، يمكنكم الاطلاع على كود المصدر الخاص بالتقنية عبر رابطGitHub لتجربوه بأنفسكم!