تشهد تقنيات تعلم التعزيز (Reinforcement Learning) تقدماً ملحوظاً، ولكن لا زالت تواجه تحديات متعددة، خاصةً في بيئات متعددة الأدوار (multi-turn agents) حيث يواجه الوكلاء مشكلة توزيع الائتمان (credit-assignment mismatch). تتجلى هذه المشكلة في انتشار المكافآت (rewards) وكونها نادرة، بالإضافة إلى أن النجاح غالبًا ما يعتمد على قرارات محلية محددة.

تقدم لنا خطوة جديدة ومثيرة في هذا المجال وهي تقنية StepOPSD، المعروفة باسم إعادة توزيع التفضيلات المستندة على الخطوات (Step-Aware Online Preference Distillation). هذه التقنية تمثل إطار عمل ما بعد التنفيذ (post-rollout) يعيد توزيع التفضيلات بناءً على خطط الوكيل في خطواته وليس فقط على مستوى المسار بالكامل.

تقوم StepOPSD بتفكيك المسارات إلى مقاطع مركزية على الإجراءات (action-centered step segments)، مما يسمح لها بإعادة تقييمها بناءً على سياقات معززة. علاوة على ذلك، تحول الفجوات في احتمالات السجل (log-probability) إلى تشكيل مميزات محفوظة الإشارة (sign-preserving advantage shaping) مع ميزانية ائتمان موحدة لكل خطوة قبل عملية تحديث GRPO.

استغرقت التجارب التي أُجريت على أنظمة ALFWorld وSearch-QA باستخدام نماذج Qwen3-1.7B وQwen2.5-3B-Instruct ، حيث أظهرت StepOPSD نتائج رائعة، محققة المرتبة الأولى في تحديات مثل ALFWorld Heat (79.1%) وPickTwo (95.0%) وSearch-QA TriviaQA (61.6%)، بالإضافة إلى أداء متساوٍ لأفضل نتيجة في HotpotQA (40.4%).

الكشف عن النتائج يدل على قانون أساسي يبلغ عنه فريق التطوير: حيث يعمل العائد المحدود (α_clip) كمنطقة ثقة محلية واسعة، في حين تبقى القوة المثلى للخليط العالمي (λ_mix) معتمدة على المهمة ذاتها. توضح هذه النتائج أهمية تقنيات التقطير التي تأخذ بعين الاعتبار الخطوات الفردية عندما تكون المكافآت على مستوى المسار ضعيفة الارتباط مع الإجراءات المحلية التي تحدد النجاح اللاحق.

إذا كنت من المهتمين بمستقبل الذكاء الاصطناعي، فما رأيكم في تطبيقات هذه التقنية الجديدة؟ شاركونا آرائكم في التعليقات!