في عالم الذكاء الاصطناعي، يعد [توافق](/tag/توافق) [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) (Large Language [Models](/tag/models)) مع [التفضيلات البشرية](/tag/[التفضيلات](/tag/التفضيلات)-البشرية) أحد أكبر التحديات التي تواجه [الباحثين](/tag/الباحثين). [تقنيات](/tag/تقنيات) مثل [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) من [تغذية راجعة بشرية](/tag/[تغذية](/tag/تغذية)-راجعة-بشرية) ([Reinforcement Learning](/tag/reinforcement-learning) from Human Feedback - [RLHF](/tag/rlhf)) وعملية [تحسين التفضيلات](/tag/[تحسين](/tag/تحسين)-[التفضيلات](/tag/التفضيلات)) المباشرة (Direct Preference [Optimization](/tag/optimization) - [DPO](/tag/dpo)) تُستخدم بشكل واسع، إلا أنها تتطلب [مجموعات بيانات](/tag/مجموعات-[بيانات](/tag/بيانات)) تفضيل كبيرة ومكلفة.

ولتحسين هذه المسألة، نقدم [استراتيجية جديدة](/tag/[استراتيجية](/tag/استراتيجية)-جديدة) تعتمد على اختيار [بيانات](/tag/بيانات) التفضيل بناءً على [الصعوبة](/tag/الصعوبة). إذ تعتمد هذه الاستراتيجية على مبدأ [مكافأة](/tag/مكافأة) ضمينة (Implicit Reward) في DPO، حيث نقوم باختيار أمثلة [بيانات تفضيل](/tag/[بيانات](/tag/بيانات)-تفضيل) ذات فجوات أصغر في المكافأة الضمنية، مما يشير إلى حالات أكثر تحدياً.

وبهذا، ننجح في تعزيز [كفاءة البيانات](/tag/[كفاءة](/tag/كفاءة)-[البيانات](/tag/البيانات)) وتوافق [النماذج](/tag/النماذج) بشكل أكبر. لقد أثبتت طريقتنا الجديدة تفوقها مقارنةً بخمسة [معايير](/tag/معايير) قوية في عدة [مجموعات بيانات](/tag/مجموعات-[بيانات](/tag/بيانات)) ومهام توافق، حيث حققت أداءً رائعًا باستخدام 10% فقط من [البيانات](/tag/البيانات) الأصلية. إن هذه الطريقة المنظمة والكفاءة في اختيار [البيانات](/tag/البيانات) تقدم حلاً واعدًا لتوسيع نطاق [توافق](/tag/توافق) [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) باستخدام [موارد](/tag/موارد) محدودة.

في نهاية المطاف، يمكن أن يُحدث هذا [الابتكار](/tag/الابتكار) تأثيراً كبيراً في كيفية [تدريب](/tag/تدريب) [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي) لتحقيق [توافق](/tag/توافق) أفضل مع اختياراتنا البشرية. ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات)!