في السنوات الأخيرة، شهدت مجالات اللغة تغييرات ملحوظة، يعود جزء كبير منها إلى ظهور نماذج اللغات الضخمة (Large Language Models) والتي قد تعاني من عدم التماثل مع استخدام اللغة الطبيعية. يُعتقد أن هذه الاختلالات يمكن أن تنشأ جزئياً خلال مرحلة التعلم التفضيلي، مثل التعلم المعزز من تغذية راجعة بشرية (Reinforcement Learning from Human Feedback). في حين أن هذا النوع من التعلم يجعل النماذج أكثر فائدة، إلا أنه قد يؤدي أيضًا إلى إدخال انحيازات لغوية نظامية.
يتجلى هذا الانحياز اللغوي في تفضيل النموذج لأشكال أو كلمات معينة مثل " delve " و " furthermore "، حتى لو لم تكن مثل هذه الأنماط موجودة في مخرجات النموذج الأساسية. تتعرض الأبحاث المتعلقة بالاختلالات اللغوية الناتجة عن التدريب التفضيلي للقيود بسبب اعتمادها على التنسيق اليدوي.
لحل هذه المشكلة، تم تقديم مقياس "Triangulated Preference Shift"، وهو مقياس ي triangulates بين المعايير الذهبية البشرية والنماذج الأساسية والمتغيرات الإرشادية لعزل الانحيازات الناتجة بشكل محدد عن التعلم التفضيلي، دون الحاجة إلى التنسيق اليدوي. تم توفير بيانات عبر ست عائلات من النماذج ودعم النتائج بالأدبيات، مما يظهر فائدة الأسلوب العام من خلال تحليل ما إذا كانت التغييرات في التعلم التفضيلي تدفع النماذج نحو ما يمكن تفسيره على أنه "لغة من prestige".
هذا المقياس يوفر طريقة تلقائية في البداية لت quantify التغييرات السلوكية الناتجة عن ضبط التفضيل، مما قد يساعد في توجيه المحاذاة للنماذج وتطوير ذكاء اصطناعي موثوق.
اكتشف كيف يؤثر التعلم التفضيلي على انحياز نماذج اللغات الضخمة!
تقدم دراسة جديدة مقياسًا مبتكرًا لرصد انحيازات اللغات في نماذج الذكاء الاصطناعي، مما يساعد على تحسين استخدام هذه النماذج. اعرف المزيد عن كيفية معالجة انحيازات التعلم التفضيلي!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
