أظهرت الأبحاث الحديثة في مجال الذكاء الاصطناعي تقدماً ملحوظاً في فهم التفاعلات المعقدة بين صفات الرفض والشخصية في نماذج الدردشة. من خلال دراسة جديدة نُشرت على منصة arXiv، تم تسليط الضوء على كيفية تأثير الشخصية المطاعة (compliant persona) على سلوك الرفض داخل هذه النماذج.

وفقًا للنتائج، تمت دراسة اتجاهات معينة في الفضاء النشيط (activation space) لكل من صفات الرفض والشخصية، ولكن حتى الآن، تم النظر إليهما كآليتين منفصلتين. أظهرت النتائج أن وجود شخصية مطاعة يُقيد نسبة الرفض. على سبيل المثال، في نموذج Qwen2.5-7B-Instruct ونموذج Llama-3.1-8B-Instruct، تم استخراج اتجاهات بين الشخصية المطاعة واتجاهات الرفض، وتم التدخل في كليهما.

الأكثر إثارة هو أن توجيه الشخصية المطاعة أدى إلى تقليل نسبة الرفض بشكل كبير، حيث انخفضت من 97% إلى 2% في نموذج Llama. ومع ذلك، تم ملاحظة أن إعادة تقديم اتجاه الرفض جزئيًا أعادت بعض الرفض في الطبقات المتأخرة، لكن ليس في الطبقات المبكرة.

من خلال تصنيف الرفض كاتجاه منفصل، يتم التغاضي عن اعتماده على الهوية الشخصية، مما يدل على أن تأثير الشخصية يمتد إلى مراحل متقدمة من التفاعل داخل النماذج. هذه النتائج تفتح آفاقًا جديدة للفهم والتطوير في كيفية بناء النماذج والمساعدات الذكية لتكون أكثر فعالية وتفاعلاً مع المستخدمين.