في الوقت الذي تتسارع فيه وتيرة التطورات في مجال الذكاء الاصطناعي، تبرز [تقنيات](/tag/تقنيات) [تحسين التفضيلات](/tag/[تحسين](/tag/تحسين)-[التفضيلات](/tag/التفضيلات)) المباشرة (Direct Preference [Optimization](/tag/optimization) - [DPO](/tag/dpo)) كبديل رئيسي لتعلم التعزيز من [التغذية الراجعة](/tag/[التغذية](/tag/التغذية)-الراجعة) البشرية ([Reinforcement Learning](/tag/reinforcement-learning) from Human Feedback - [RLHF](/tag/rlhf)). تكمن المفارقة في أن هذه الطريقة توفر توازناً نظريًا، لكنها تعتمد على فرضية خفية ليست دائمًا صحيحة في الممارسات الفعلية.
تتطلب [النماذج](/tag/النماذج) المُعتمدة على [RLHF](/tag/rlhf) أن تتبنى [السياسات](/tag/السياسات) المُثلى [تفضيلات](/tag/تفضيلات) البشر، ولكن عندما تفشل هذه الافتراضات، يصبح التركيز على [تحسين](/tag/تحسين) الميزات النسبية بدلاً من [التوافق](/tag/التوافق) المطلق مع [تفضيلات](/tag/تفضيلات) البشر. هذا يمكن أن يؤدي إلى نتائج غير مرغوبة، حيث تتناقص [خسائر](/tag/خسائر) [DPO](/tag/dpo) بينما تفضل استجابات غير مُحبذة.
وفي ضوء ذلك، قدم الباحثون مفهوم "[تحسين التفضيلات](/tag/[تحسين](/tag/تحسين)-[التفضيلات](/tag/التفضيلات)) المقيدة" (Constrained Preference [Optimization](/tag/optimization) - CPO)، الذي يدمج قيوداً جديدة مع [تقنيات](/tag/تقنيات) [RLHF](/tag/rlhf) ليضمن توافقاً مثبَتًا مع [تفضيلات](/tag/تفضيلات) الإنسان. ويدعم ذلك بتحليل هندسي لتصنيفات الهامش، مما يظهر أن [DPO](/tag/dpo) يمكن أن تعمل مع أهداف سلبية محتملة.
تظهر [التجارب](/tag/التجارب) الشاملة على [المعايير](/tag/المعايير) القياسية أن CPO يحقق أداءً رائدًا في المجال، مما يفتح آفاقًا جديدة لتطوير [نماذج ذكاء اصطناعي](/tag/[نماذج](/tag/نماذج)-ذكاء-اصطناعي) أكثر توافقًا مع ما يفضله البشر. يمكنكم الاطلاع على [الشيفرة البرمجية](/tag/الشيفرة-البرمجية) لهذا [الابتكار](/tag/الابتكار) من خلال الرابط: [https://github.com/visitworld123/CPO]. هل تتوقع أن يؤدي هذا التقدم إلى [تحسينات](/tag/تحسينات) ملموسة في [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي) القادمة؟ شاركونا آرائكم في [التعليقات](/tag/التعليقات)!
ثورة في الذكاء الاصطناعي: كيف تعيد تقنيات تحسين التفضيلات توجيه دقة النماذج!
تقدم تقنيات تحسين التفضيلات المباشرة (DPO) بديلاً مميزًا لتعلم التعزيز من التغذية الراجعة البشرية (RLHF) مع تقديم تحقيقات جديدة في القيود والتوافق. هذا الابتكار يعد بتحسين الأداء وكفاءة النماذج بشكل كبير!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
