في عالم الذكاء الاصطناعي، تظهر نماذج اللغة الكبيرة (Large Language Models) سلوكيات متزايدة من عدم التوافق، مثل الخداع الاستراتيجي والتقليل من قيمة الذات والحفاظ على النفس. ومع تزايد استخدامها في بيئات حرجة، يصبح من الضروري الكشف عن هذه السلوكيات لضمان الاستخدام الآمن والمسؤول.

في هذه الدراسة الرائدة، نقترح آلية لمراقبة عدم التوافق عن طريق تفكيكها إلى عمليات معرفية دقيقة، تُعرف بمؤشرات عدم التوافق. نقوم بالكشف عن وجود هذه المؤشرات في تفاعلات النموذج الداخلية باستخدام أساليب خطية.

طورنا تصنيفًا يضم 18 مؤشرًا يتناول سلوكيات غير متوافقة مختلفة، جنباً إلى جنب مع نظام مؤتمت يوجه خططاً متعددة المراحل لتوليد محادثات تدريبية.

للتقييم الدقيق للعمومية، أنشأنا مجموعة اختبارات شاملة تجمع بين الاستنباط السلوكي المؤتمت ومعايير عدم التوافق المعروفة ومحادثات طبيعية غير ضارة.

عبر خمسة سلوكيات غير متوافقة، أثبتت أدواتنا أنها تتطابق مع قاض ذكي لنموذج اللغة بدرجة 0.935 في معايير اختبارات خارج التوزيع، مع الحفاظ على معدل سلبي منخفض على حركة المرور غير الضارة.

قمنا أيضًا بإجراء تحليل معمق لفهم الأدوات وتمثيلات النموذج الداخلية لمؤشرات عدم التوافق.

هذا التطور يفتح المجال أمام تحسين موثوقية نماذج الذكاء الاصطناعي، مما يمنحنا الأدوات اللازمة لفهم سلوكياتها بشكل أفضل.