في عالم الذكاء الاصطناعي، تعتبر [نماذج المكافآت](/tag/[نماذج](/tag/نماذج)-[المكافآت](/tag/المكافآت)) (Reward [Models](/tag/models) - RMs) أحد الأعمدة الأساسية في عملية [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) من [التغذية الراجعة](/tag/[التغذية](/tag/التغذية)-الراجعة) البشرية ([Reinforcement Learning](/tag/reinforcement-learning) from Human Feedback - [RLHF](/tag/rlhf))؛ حيث تسعى هذه [النماذج](/tag/النماذج) إلى مواءمة [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) (Large Language [Models](/tag/models) - [LLMs](/tag/llms)) مع القيم الإنسانية. ومع ذلك، فإن [بيانات](/tag/بيانات) [تدريب](/tag/تدريب) [نماذج المكافآت](/tag/[نماذج](/tag/نماذج)-[المكافآت](/tag/المكافآت)) غالبًا ما تُعد ذات جودة منخفضة، وتحتوي على [تحيزات](/tag/تحيزات) استقرائية يمكن أن تؤدي بسهولة إلى overfitting و"[قرصنة المكافآت](/tag/قرصنة-[المكافآت](/tag/المكافآت))".
على سبيل المثال، تُفضل البشر عادةً الاستجابات الأكثر تفصيلًا وشمولية؛ إلا أن طول الاستجابة قد يصبح أحد تلك [التحيزات](/tag/التحيزات) الاستقرائية [الحتمية](/tag/الحتمية). وبالرغم من وجود [عدد](/tag/عدد) محدود من الطرق السابقة لإزالة [التحيز](/tag/التحيز) من [نماذج](/tag/نماذج) المكافآت، فإنها عادة ما تستهدف نوعًا محددًا من [التحيزات](/tag/التحيزات) أو تحلل المشكلة باستخدام [علاقات](/tag/علاقات) خطية بسيطة مثل معامل بيرسون (Pearson coefficients).
لتجاوز هذه التحديات، نقدم طريقة جديدة تسمى إزالة [التحيز](/tag/التحيز) عن طريق [تحسين](/tag/تحسين) [المعلومات](/tag/المعلومات) لنماذج [المكافآت](/tag/المكافآت) (Debiasing via Information optimization for RM - DIR). تستلهم هذه الطريقة من مفهوم زجاجة [المعلومات](/tag/المعلومات) (Information Bottleneck)، حيث نهدف إلى [تحقيق](/tag/تحقيق) أعلى مستوى من [المعلومات](/tag/المعلومات) المشتركة (Mutual Information - MI) بين درجات [نماذج المكافآت](/tag/[نماذج](/tag/نماذج)-[المكافآت](/tag/المكافآت)) ومجموعات [التفضيلات](/tag/التفضيلات) البشرية، بينما نقلل من [المعلومات](/tag/المعلومات) المشتركة بين نواتج [نماذج المكافآت](/tag/[نماذج](/tag/نماذج)-[المكافآت](/tag/المكافآت)) والخصائص المتحيزة في مدخلات التفضيل.
ندعم هذه النظرية بأسس [معلوماتية](/tag/معلوماتية) قوية، مما يجعل لمّنا القدرة على التعامل مع [تحيزات](/tag/تحيزات) أكثر تعقيدًا وانحرافًا غير خطي.
في التجارب، أظهرت النتائج أن هذه الطريقة ليست فقط فعّالة في تقليل [التحيزات](/tag/التحيزات) المستهدفة، بل تعزز أيضًا [أداء](/tag/أداء) [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) من [التغذية الراجعة](/tag/[التغذية](/tag/التغذية)-الراجعة) البشرية [عبر](/tag/عبر) [معايير](/tag/معايير) متنوعة، مما يؤدي إلى [تحسين](/tag/تحسين) قدرات [التعميم](/tag/التعميم). يتوفر [الكود](/tag/الكود) ووصفات [التدريب](/tag/التدريب) على [رابط_الكود].
هل تعتقد أن هذه النهج ستسهم في [تحسين](/tag/تحسين) [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي) بشكل أكبر؟ شاركونا آراءكم في [التعليقات](/tag/التعليقات).
تجاوز الحواجز: كيفية القضاء على التحيزات في نماذج المكافآت باستخدام الإرشادات المعلوماتية
تقدم الدراسة طريقة مبتكرة للتخلص من التحيزات في نماذج المكافآت لخلق نماذج ذكاء اصطناعي أكثر توافقًا مع القيم الإنسانية. تعتمد الطريقة الجديدة على التحليل المعلوماتي لتحسين الأداء في التعلم المعزز من خلال التغذية الراجعة البشرية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
