في عالم الذكاء الاصطناعي، تزداد أهمية الشفافية والثقة في النماذج اللغوية (Language Models)، خاصة عندما يتعلق الأمر بتفاعلاتها مع المستخدمين. مبادرة جديدة تحت عنوان Self-CTRL (التدريب الذاتي للاتساق) تقدم منهجية مبتكرة تعتمد على التعلم المعزز (Reinforcement Learning) لتعزيز دقة النماذج في وصف سلوكها الخاص.
تسعى تقنية Self-CTRL إلى تحقيق توازن بين تفسيرات النموذج وسلوكه من خلال تحديثات متكررة. فمن خلال هذه الطريقة، يمكن للنموذج تحليل أدائه وتقديم تفسيرات تتماشى مع سلوكه الفعلي. تمت تجربة هذه التقنية في مجاليين رئيسيين.
الأول هو دراسة مهام التقدير الاحتمالي حيث يجب أن تتعلم النماذج تقليد أساليب عينة متحيزة، حيث أظهرت النتائج أن تدريب الاتساق زاد من الارتباط بين ما يبلّغه النموذج عن نفسه وما يُقاس سلوكه الفعلي من 0.24 إلى 0.64، وهو ما يعكس فعالية هذه الطريقة مقارنةً بالإشراف المباشر.
أما في المجال الثاني، فقد اعتنت الأبحاث بتطبيقات ذكاء اصطناعي دستوري حيث يُطلب من النماذج توضيح متى ستقبل أو ترفض طلبات المستخدمين. هنا، أسهمت Self-CTRL في تحسين دقة التوقعات الخاصة بالرفض من 36% إلى 92%. كما أن تحديثات السلوك ساعدت في تقليل معدل الفشل من 15% إلى 0.5% دون تأثير كبير على الرفض للطلبات غير الضارة.
تسعى هذه الدراسة إلى توفير وصف شامل لكيفية تدريب النماذج اللغوية لتكون أكثر أمانًا وشفافية وقابلة للتحكم، مما يساعد على تعزيز الثقة بين البشر والأنظمة الذكية.
استراتيجيات جديدة لتعزيز الشفافية: تدريب النماذج اللغوية باستخدام التعلم المعزز!
تقدم دراسة جديدة تحت عنوان Self-CTRL تقنية مبتكرة لتحسين اتساق النماذج اللغوية مع سلوكها. تعزز هذه الطريقة الشفافية والثقة بين المستخدمين والنماذج اللغوية، مما يجعلها أكثر أمانًا وموثوقية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
