في عالم الذكاء الاصطناعي، يعد [توافق](/tag/توافق) [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) (Large Language [Models](/tag/models)) مع [التفضيلات البشرية](/tag/[التفضيلات](/tag/التفضيلات)-البشرية) أحد أكبر التحديات التي تواجه [الباحثين](/tag/الباحثين). [تقنيات](/tag/تقنيات) مثل [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) من [تغذية راجعة بشرية](/tag/[تغذية](/tag/تغذية)-راجعة-بشرية) ([Reinforcement Learning](/tag/reinforcement-learning) from Human Feedback - [RLHF](/tag/rlhf)) وعملية [تحسين التفضيلات](/tag/[تحسين](/tag/تحسين)-[التفضيلات](/tag/التفضيلات)) المباشرة (Direct Preference [Optimization](/tag/optimization) - [DPO](/tag/dpo)) تُستخدم بشكل واسع، إلا أنها تتطلب [مجموعات بيانات](/tag/مجموعات-[بيانات](/tag/بيانات)) تفضيل كبيرة ومكلفة.
ولتحسين هذه المسألة، نقدم [استراتيجية جديدة](/tag/[استراتيجية](/tag/استراتيجية)-جديدة) تعتمد على اختيار [بيانات](/tag/بيانات) التفضيل بناءً على [الصعوبة](/tag/الصعوبة). إذ تعتمد هذه الاستراتيجية على مبدأ [مكافأة](/tag/مكافأة) ضمينة (Implicit Reward) في DPO، حيث نقوم باختيار أمثلة [بيانات تفضيل](/tag/[بيانات](/tag/بيانات)-تفضيل) ذات فجوات أصغر في المكافأة الضمنية، مما يشير إلى حالات أكثر تحدياً.
وبهذا، ننجح في تعزيز [كفاءة البيانات](/tag/[كفاءة](/tag/كفاءة)-[البيانات](/tag/البيانات)) وتوافق [النماذج](/tag/النماذج) بشكل أكبر. لقد أثبتت طريقتنا الجديدة تفوقها مقارنةً بخمسة [معايير](/tag/معايير) قوية في عدة [مجموعات بيانات](/tag/مجموعات-[بيانات](/tag/بيانات)) ومهام توافق، حيث حققت أداءً رائعًا باستخدام 10% فقط من [البيانات](/tag/البيانات) الأصلية. إن هذه الطريقة المنظمة والكفاءة في اختيار [البيانات](/tag/البيانات) تقدم حلاً واعدًا لتوسيع نطاق [توافق](/tag/توافق) [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) باستخدام [موارد](/tag/موارد) محدودة.
في نهاية المطاف، يمكن أن يُحدث هذا [الابتكار](/tag/الابتكار) تأثيراً كبيراً في كيفية [تدريب](/tag/تدريب) [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي) لتحقيق [توافق](/tag/توافق) أفضل مع اختياراتنا البشرية. ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات)!
تحسين نماذج الذكاء الاصطناعي: استراتيجية جديدة لاختيار بيانات التفضيل بناءً على الصعوبة!
تقديم استراتيجية مبتكرة لاختيار بيانات تفضيل الذكاء الاصطناعي بناءً على الصعوبة، مما يسهم في تحسين كفاءة البيانات وتوافق نماذج اللغة مع التفضيلات البشرية. هذا الأسلوب يعدّ ثورة في البحث التقني!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
