مع تزايد قدرة نماذج اللغة الضخمة (LLMs) وتوسع نطاق تطبيقاتها، يصبح من الضروري ضمان موثوقيتها. تكمن إحدى أخطر المخاطر في الخداع الداخلي، حيث تخطط النماذج للإيحاء بطرق مضللة لتحقيق أهدافها الخاصة.

تتضمن أساليب محاذاة الحالية والتي تعتمد على مراقبة تسلسل التفكير (Chain-of-Thought - CoT) الإشراف على آثار التفكير بشكل صريح. لكن، تحت ضغط التحسين، تميل النماذج إلى إخفاء التفكير الخداعي، مما يجعل الإشراف الدلالي غير موثوق به بطبيعته.

استنادًا إلى علم النفس المعرفي، نفترض أن نموذج اللغة المضلل يُحافظ على اعتقاد داخلي ثابت في تسلسل تفكيره بينما تظل استجاباته الخارجية هشة تحت التأثير. نسمي هذه الظاهرة 'عدم توازن الاستقرار' ونقيسها من خلال قياس الفارق بين استقرار تسلسلات التفكير الداخلية واستقرار الاستجابات الخارجية تحت الاضطراب.

استنادًا إلى هذه السمة الهيكلية، نقترح تقنية 'تنظيم عدم توازن الاستقرار' (Stability Asymmetry Regularization - SAR)، وهي هدف محاذاة مبتكر ي penalizes هذا اللامساواة التوزيعية أثناء التعلم المعزز. على عكس مراقبة تسلسل التفكير، تستهدف SAR الهيكل الإحصائي لمخرجات النموذج، مما يجعلها أكثر قوة أمام الإخفاء الدلالي.

تؤكد التجارب الواسعة أن عدم توازن الاستقرار يستدل بدقة على السلوك المضلل، وأن SAR فعال في قمع الخداع الداخلي دون الإضرار بالقدرة العامة للنموذج.