في عصر الذكاء الاصطناعي، تصبح القدرة على فهم سلوك النماذج أمرًا بالغ الأهمية. توضح دراسة حديثة كيف يمكن كشف سلوك الرفض من خلال التنشيطات الوسيطة في نماذج اللغات الضخمة (Large Language Models) قبل مرحلة التشفير. باستخدام أدوات تحليلية متقدمة تسمى 'التنبيهات الخطية'، تمكن الباحثون من رصد سلوك الرفض في النماذج، وهو ما يعكس مدى أداء النموذج وبنيته داخل كل كتلة من كتل المحولات.

توضح النتائج أن سلوك الرفض يُمكن توقعه بشكل دقيق قبل الوصول للطبقة النهائية، مما يدل على أن السلوك المتعلق بالسلامة متواجد في الإشارات المتوسطة. لضمان إمكانية الاستفادة من هذه الإشارات، ابتكر الباحثون تقنية جديدة تُسمى 'Mechanistic AutoDAN'، التي تعتمد على تقييم جزئي للقدرة بدلاً من التقييم الكامل للنموذج، مما يسرع من عملية البحث عن العبارات المفيدة بنسبة تصل إلى 72%.

علاوة على ذلك، أظهرت النتائج أن فعالية توجيه التنبيهات تزيد مع زيادة حجم النموذج، مما يعني أن هذه الإشارات تمثل أداة قيمة لتعزيز أداء نماذج الذكاء الاصطناعي. هذه الإنجازات تفتح آفاقًا جديدة، حيث تؤكد القدرة على استخراج معلومات مفيدة من التنشيطات المتوسطة قبل الإنتاج النهائي.