في عالم الذكاء الاصطناعي، تعتبر نماذج المكافآت (Reward Models - RMs) أحد الأعمدة الأساسية في عملية التعلم المعزز من التغذية الراجعة البشرية (Reinforcement Learning from Human Feedback - RLHF)؛ حيث تسعى هذه النماذج إلى مواءمة نماذج اللغة الكبيرة (Large Language Models - LLMs) مع القيم الإنسانية. ومع ذلك، فإن بيانات تدريب نماذج المكافآت غالبًا ما تُعد ذات جودة منخفضة، وتحتوي على تحيزات استقرائية يمكن أن تؤدي بسهولة إلى overfitting و"قرصنة المكافآت".

على سبيل المثال، تُفضل البشر عادةً الاستجابات الأكثر تفصيلًا وشمولية؛ إلا أن طول الاستجابة قد يصبح أحد تلك التحيزات الاستقرائية الحتمية. وبالرغم من وجود عدد محدود من الطرق السابقة لإزالة التحيز من نماذج المكافآت، فإنها عادة ما تستهدف نوعًا محددًا من التحيزات أو تحلل المشكلة باستخدام علاقات خطية بسيطة مثل معامل بيرسون (Pearson coefficients).

لتجاوز هذه التحديات، نقدم طريقة جديدة تسمى إزالة التحيز عن طريق تحسين المعلومات لنماذج المكافآت (Debiasing via Information optimization for RM - DIR). تستلهم هذه الطريقة من مفهوم زجاجة المعلومات (Information Bottleneck)، حيث نهدف إلى تحقيق أعلى مستوى من المعلومات المشتركة (Mutual Information - MI) بين درجات نماذج المكافآت ومجموعات التفضيلات البشرية، بينما نقلل من المعلومات المشتركة بين نواتج نماذج المكافآت والخصائص المتحيزة في مدخلات التفضيل.

ندعم هذه النظرية بأسس معلوماتية قوية، مما يجعل لمّنا القدرة على التعامل مع تحيزات أكثر تعقيدًا وانحرافًا غير خطي.

في التجارب، أظهرت النتائج أن هذه الطريقة ليست فقط فعّالة في تقليل التحيزات المستهدفة، بل تعزز أيضًا أداء التعلم المعزز من التغذية الراجعة البشرية عبر معايير متنوعة، مما يؤدي إلى تحسين قدرات التعميم. يتوفر الكود ووصفات التدريب على [رابط_الكود].

هل تعتقد أن هذه النهج ستسهم في تحسين نماذج الذكاء الاصطناعي بشكل أكبر؟ شاركونا آراءكم في التعليقات.