في عالم التعلم الآلي، يعتبر التعلم المعزز مع المكافآت القابلة للتحقق خطوة مبتكرة بالفعل. ومع ذلك، تبرز صعوبة جديدة عندما يتعلق الأمر بتقييم واستيفاء عدة معايير نوعية في ذات الوقت. هنا يأتي دور الجوائز القائمة على القوائم (rubric-based rewards) لتقييم المعايير المحددة لكل مهمة وتجميعها في مكافأة عددية واحدة.

لكن المشكلة تكمن في أن التجميع الثابت قد يتسبب في الخلط بين أهمية المعيار المعين التي تم تعيينها من قبل الإنسان وفائدته الحالية كإشارة لتحسين النموذج. ولتجاوز هذه المعضلة، تم تقديم نموذج جديد يسمى POW3R، والذي يركز على الربط بين أهداف المكافآت ووزن المعايير أثناء التدريب.

يعمل إطار عمل POW3R على الحفاظ على الأوزان البشرية وتوازن الفئات كمستهدف للقائمة، مع تقوية أوزان المكافأة على مستوى المعايير وفقًا لما تتطلبه السياسة الحالية. ويساهم هذا في جعل مكافأة GRPO أكثر معلوماتية دون تغيير الهدف الأساسي للتقييم.

أظهر POW3R أداءً رائعًا في مقارنة ثلاث سياسات أساسية عبر مجموعتين بيانات تتناول سياقات متعددة الوسائط والنصوص فقط، حيث فاز بإجمالي 24 من 30 مقارنة بين السياسة الأساسية والمعيار، مُحسنًا كل من متوسط مكافأة القوائم والاكتفاء الصارم، الذي يقيس نسبة الاستجابة التي تلبي كل معيار مطلوب في القائمة، وذلك في الوقت الذي استغرق فيه عدد أقل من خطوات التدريب بمعدل يصل إلى 2.5-4 مرات.

من الواضح أن جوائز القائمة يجب أن تميز بوضوح ما هو مهم في الإجابة النهائية عما يمكنه تعليم السياسة الحالية. هذه التطورات تعد بمثابة فجر جديد في عالم التعلم المعزز، حيث تتجه الأنظار الآن إلى كيفية تطبيق هذه الأفكار في مشروعات المستقبل سواء في الذكاء الاصطناعي أو التطبيقات العملية.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.