تعتبر تقنيات التعلم المعزز (Reinforcement Learning) من الأدوات القوية في معالجة المهام التي تتطلب مكافآت قابلة للتحقق. لكن، عندما يتعلق الأمر بالمهام المفتوحة النهاية، مثل توليد المحتوى، يكون من الصعب التحقق من دقة الردود. في هذا السياق، تظهر صعوبات كبيرة نتيجة للتكلفة العالية لتدريب نماذج المكافآت والتحديات المتعلقة بحصول تباين في النتائج.

في خطوة مبتكرة، قدم الباحثون تقنية جديدة تُعرف بتفضيلات المكافأة مزدوجة التوجه وتعزيز التنوع الجماعي (Pairwise Preference Reward and Group-based Diversity Enhancement) أو اختصارًا (PPR-GDE). تعمل هذه الطريقة على معالجة قيود الأساليب التقليدية، حيث لا تتطلب مكافآت عددية، بل تدمج التنوع على مستوى المجموعة كجزء من إشارة المكافأة.

تستند (PPR-GDE) إلى تعزيز النموذج المقارن من خلال المكافآت المستندة إلى التفضيلات المزدوجة، مما يقلل من التحيز المرتبط بموقع القضاة من خلال إجراء مقارنات متكررة مع تغيير ترتيب الردود. كذلك، يتم تقديم مكافأة قائمة على التنوع الجماعي التي تشجع بوضوح على الانحراف الدلالي ضمن مجموعة الردود.

عند تطبيق (PPR-GDE) على مهام اللعب بالأدوار، أظهرت التجارب أن هذه الطريقة تحقق جودة توافق أفضل بالإضافة إلى تنوع تعبير أكثر مقارنة بأساليب التعلم المعزز التقليدية. ويوضح التحليل اللاحق أن التفضيلات المزدوجة تلعب دورًا حيويًا في توافق التفضيلات من وجهة نظر ذاتية، بينما يلعب مقياس التنوع دورًا أساسيًا في تحقيق تنوع تعبير أفضل وتغطية دلالية أوسع.

هل تعتقد أن هذه الأساليب الجديدة ستحدث ثورة في صناعة الذكاء الاصطناعي؟ شاركنا برأيك في التعليقات.