في الآونة الأخيرة، برزت [تقنية](/tag/تقنية) [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) من ردود الفعل البشرية ([Reinforcement Learning](/tag/reinforcement-learning) from Human Feedback - [RLHF](/tag/rlhf)) كأداة حيوية لتوجيه [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) (Large Language [Models](/tag/models) - [LLMs](/tag/llms)) [نحو](/tag/نحو) [تفضيلات](/tag/تفضيلات) البشر. ومع ذلك، تكمن المشكلة الرئيسية في ميل هذه [النماذج](/tag/النماذج) إلى ضغط [المكافآت](/tag/المكافآت) (reward overoptimization)، حيث تؤدي [النماذج](/tag/النماذج) التنفيذية إلى [انحرافات](/tag/انحرافات) عن [نوايا المستخدمين](/tag/[نوايا](/tag/نوايا)-المستخدمين) الحقيقية في سبيل الحصول على مزيد من [المكافآت](/tag/المكافآت).
تعتمد الحلول السابقة على [معلومات](/tag/معلومات) سطحية دلالية، مما لا يعالج بفعالية [عدم التوافق](/tag/عدم-[التوافق](/tag/التوافق)) بين [نموذج المكافأة](/tag/[نموذج](/tag/نموذج)-المكافأة) (Reward [Model](/tag/model) - RM) والنموذج التنفيذ (policy model) الناتج عن تغيرات توزيع [السياسات](/tag/السياسات). وهذا يقود بطبيعة الحال إلى تزايد الفجوات في المكافآت، مما يفاقم من مشكلة [تحسين](/tag/تحسين) المكافأة.
لمواجهة هذه التحديات، تم تقديم [نموذج المكافأة](/tag/[نموذج](/tag/نموذج)-المكافأة) المتزامنة في الوقت الحقيقي (R2M)، وهو إطار [عمل](/tag/عمل) [جديد](/tag/جديد) خفيف يعتمد على [تقنية](/tag/تقنية) [RLHF](/tag/rlhf). يتجاوز R2M [النماذج](/tag/النماذج) التقليدية التي تعتمد فقط على [تمثيلات](/tag/تمثيلات) [دلالية](/tag/دلالية) ثابتة لنموذج [اللغة](/tag/اللغة) المدرب مسبقاً، ويعتمد بدلاً من ذلك على الحالات المخفية المتطورة للنموذج التنفيذي ([تغذية راجعة](/tag/[تغذية](/tag/تغذية)-راجعة) من النموذج) لمواءمة تغير التوزيع في الوقت الحقيقي خلال عملية [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز).
تشير هذه الدراسات إلى اتجاهات واعدة لتحسين [أداء](/tag/أداء) [نماذج المكافآت](/tag/[نماذج](/tag/نماذج)-[المكافآت](/tag/المكافآت)) عن طريق الاستفادة من [التغذية الراجعة](/tag/[التغذية](/tag/التغذية)-الراجعة) في الوقت الحقيقي من [نماذج](/tag/نماذج) السياسة، مما يفتح آفاق جديدة في مجال [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) وتحسين [تفاعل](/tag/تفاعل) [النماذج](/tag/النماذج) مع المستخدمين.
نموذج مكافأة متزامنة في الوقت الحقيقي: طفرة جديدة في تكنولوجيا الذكاء الاصطناعي
تقديم نموذج مكافأة متزامنة في الوقت الحقيقي (R2M) يساهم في تقليل مشاكل تحسين المكافآت الزائفة، مما يعزز توافق نماذج اللغة الكبيرة (LLMs) مع تفضيلات البشر بشكل أكثر دقة. هل سيسهم هذا الابتكار في تحسين أداء الذكاء الاصطناعي؟
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
