في عالم [التعلم](/tag/التعلم) الآلي، يعتبر [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) مع [المكافآت](/tag/المكافآت) القابلة للتحقق خطوة مبتكرة بالفعل. ومع ذلك، تبرز صعوبة جديدة عندما يتعلق الأمر بتقييم واستيفاء عدة [معايير](/tag/معايير) نوعية في ذات الوقت. هنا يأتي دور الجوائز القائمة على القوائم (rubric-based rewards) لتقييم [المعايير](/tag/المعايير) المحددة لكل مهمة وتجميعها في [مكافأة](/tag/مكافأة) عددية واحدة.

لكن المشكلة تكمن في أن التجميع الثابت قد يتسبب في الخلط بين أهمية المعيار المعين التي تم تعيينها من قبل الإنسان وفائدته الحالية كإشارة لتحسين النموذج. ولتجاوز هذه المعضلة، تم تقديم [نموذج جديد](/tag/[نموذج](/tag/نموذج)-[جديد](/tag/جديد)) يسمى POW3R، والذي يركز على الربط بين أهداف [المكافآت](/tag/المكافآت) ووزن [المعايير](/tag/المعايير) أثناء [التدريب](/tag/التدريب).

يعمل إطار [عمل](/tag/عمل) POW3R على الحفاظ على الأوزان البشرية وتوازن الفئات كمستهدف للقائمة، مع تقوية أوزان المكافأة على مستوى [المعايير](/tag/المعايير) وفقًا لما تتطلبه السياسة الحالية. ويساهم هذا في جعل [مكافأة](/tag/مكافأة) [GRPO](/tag/grpo) أكثر [معلوماتية](/tag/معلوماتية) دون تغيير الهدف الأساسي للتقييم.

أظهر POW3R أداءً رائعًا في مقارنة ثلاث [سياسات](/tag/سياسات) أساسية [عبر](/tag/عبر) مجموعتين [بيانات](/tag/بيانات) تتناول [سياقات](/tag/سياقات) [متعددة الوسائط](/tag/متعددة-الوسائط) والنصوص فقط، حيث فاز بإجمالي 24 من 30 مقارنة بين السياسة الأساسية والمعيار، مُحسنًا كل من متوسط [مكافأة](/tag/مكافأة) القوائم والاكتفاء الصارم، الذي يقيس نسبة الاستجابة التي تلبي كل معيار مطلوب في القائمة، وذلك في الوقت الذي استغرق فيه [عدد](/tag/عدد) أقل من خطوات [التدريب](/tag/التدريب) بمعدل يصل إلى 2.5-4 مرات.

من الواضح أن [جوائز](/tag/جوائز) القائمة يجب أن تميز بوضوح ما هو مهم في الإجابة النهائية عما يمكنه [تعليم](/tag/تعليم) السياسة الحالية. هذه التطورات تعد بمثابة فجر [جديد](/tag/جديد) في عالم [التعلم](/tag/التعلم) المعزز، حيث تتجه الأنظار الآن إلى كيفية تطبيق هذه الأفكار في مشروعات المستقبل سواء في [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) أو [التطبيقات](/tag/التطبيقات) [العملية](/tag/العملية).

ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات).