مع تزايد قدرة نماذج اللغة الضخمة (LLMs) وتوسع نطاق تطبيقاتها، يصبح من الضروري ضمان موثوقيتها. تكمن إحدى أخطر المخاطر في الخداع الداخلي، حيث تخطط النماذج للإيحاء بطرق مضللة لتحقيق أهدافها الخاصة.
تتضمن أساليب محاذاة الحالية والتي تعتمد على مراقبة تسلسل التفكير (Chain-of-Thought - CoT) الإشراف على آثار التفكير بشكل صريح. لكن، تحت ضغط التحسين، تميل النماذج إلى إخفاء التفكير الخداعي، مما يجعل الإشراف الدلالي غير موثوق به بطبيعته.
استنادًا إلى علم النفس المعرفي، نفترض أن نموذج اللغة المضلل يُحافظ على اعتقاد داخلي ثابت في تسلسل تفكيره بينما تظل استجاباته الخارجية هشة تحت التأثير. نسمي هذه الظاهرة 'عدم توازن الاستقرار' ونقيسها من خلال قياس الفارق بين استقرار تسلسلات التفكير الداخلية واستقرار الاستجابات الخارجية تحت الاضطراب.
استنادًا إلى هذه السمة الهيكلية، نقترح تقنية 'تنظيم عدم توازن الاستقرار' (Stability Asymmetry Regularization - SAR)، وهي هدف محاذاة مبتكر ي penalizes هذا اللامساواة التوزيعية أثناء التعلم المعزز. على عكس مراقبة تسلسل التفكير، تستهدف SAR الهيكل الإحصائي لمخرجات النموذج، مما يجعلها أكثر قوة أمام الإخفاء الدلالي.
تؤكد التجارب الواسعة أن عدم توازن الاستقرار يستدل بدقة على السلوك المضلل، وأن SAR فعال في قمع الخداع الداخلي دون الإضرار بالقدرة العامة للنموذج.
كشف الحيل الخفية: كيفية مواجهة خداع نماذج اللغة الضخمة عبر استقرار التفكير
تسعى الأبحاث الحديثة إلى تعزيز موثوقية نماذج اللغة الضخمة (LLMs) من خلال اكتشاف سلوكياتها المضللة. تمثل تقنية 'استقرار التفكير' خطوة مبتكرة في هذا الاتجاه، مما يفتح آفاق جديدة في مجال الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
