في الآونة الأخيرة، برزت [تقنية](/tag/تقنية) [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) من ردود الفعل البشرية ([Reinforcement Learning](/tag/reinforcement-learning) from Human Feedback - [RLHF](/tag/rlhf)) كأداة حيوية لتوجيه [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) (Large Language [Models](/tag/models) - [LLMs](/tag/llms)) [نحو](/tag/نحو) [تفضيلات](/tag/تفضيلات) البشر. ومع ذلك، تكمن المشكلة الرئيسية في ميل هذه [النماذج](/tag/النماذج) إلى ضغط [المكافآت](/tag/المكافآت) (reward overoptimization)، حيث تؤدي [النماذج](/tag/النماذج) التنفيذية إلى [انحرافات](/tag/انحرافات) عن [نوايا المستخدمين](/tag/[نوايا](/tag/نوايا)-المستخدمين) الحقيقية في سبيل الحصول على مزيد من [المكافآت](/tag/المكافآت).

تعتمد الحلول السابقة على [معلومات](/tag/معلومات) سطحية دلالية، مما لا يعالج بفعالية [عدم التوافق](/tag/عدم-[التوافق](/tag/التوافق)) بين [نموذج المكافأة](/tag/[نموذج](/tag/نموذج)-المكافأة) (Reward [Model](/tag/model) - RM) والنموذج التنفيذ (policy model) الناتج عن تغيرات توزيع [السياسات](/tag/السياسات). وهذا يقود بطبيعة الحال إلى تزايد الفجوات في المكافآت، مما يفاقم من مشكلة [تحسين](/tag/تحسين) المكافأة.

لمواجهة هذه التحديات، تم تقديم [نموذج المكافأة](/tag/[نموذج](/tag/نموذج)-المكافأة) المتزامنة في الوقت الحقيقي (R2M)، وهو إطار [عمل](/tag/عمل) [جديد](/tag/جديد) خفيف يعتمد على [تقنية](/tag/تقنية) [RLHF](/tag/rlhf). يتجاوز R2M [النماذج](/tag/النماذج) التقليدية التي تعتمد فقط على [تمثيلات](/tag/تمثيلات) [دلالية](/tag/دلالية) ثابتة لنموذج [اللغة](/tag/اللغة) المدرب مسبقاً، ويعتمد بدلاً من ذلك على الحالات المخفية المتطورة للنموذج التنفيذي ([تغذية راجعة](/tag/[تغذية](/tag/تغذية)-راجعة) من النموذج) لمواءمة تغير التوزيع في الوقت الحقيقي خلال عملية [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز).

تشير هذه الدراسات إلى اتجاهات واعدة لتحسين [أداء](/tag/أداء) [نماذج المكافآت](/tag/[نماذج](/tag/نماذج)-[المكافآت](/tag/المكافآت)) عن طريق الاستفادة من [التغذية الراجعة](/tag/[التغذية](/tag/التغذية)-الراجعة) في الوقت الحقيقي من [نماذج](/tag/نماذج) السياسة، مما يفتح آفاق جديدة في مجال [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) وتحسين [تفاعل](/tag/تفاعل) [النماذج](/tag/النماذج) مع المستخدمين.