تعتبر نماذج اللغة الحديثة (Language Models) من أهم التطورات في مجال الذكاء الاصطناعي، حيث باتت تلعب دوراً حيوياً في معالجة اللغة الطبيعية. في ورقة بحثية جديدة، يتم تناول كيفية تحسين آليات التوجيه في هذه النماذج لتحقيق تنسيق أفضل بين السياسات. يبدأ الباحثون بتحديد آلية توجيه السياسات في نماذج اللغة المدربة وفقاً لمبدأ التوافق (Alignment) ويظهرون كيف يتم استخدام بوابة الانتباه (Attention Gate) في الطبقات الوسيطة لقراءة المحتوى المكتشف، مما يؤدي إلى تعزيز الإشارات نحو الرفض.

على نطاق صغير، تُعتبر البوابة والمعزز رؤوساً مفردة، بينما عند زيادة المقاييس، تصبح تلك الأجزاء من الأث-heads عبر طبقات متجاورة. ورغم أن مساهمة البوابة لا تتجاوز 1% من الناتج، إلا أن اختبار التبادل (Interchange Testing) أثبت وجود نفس النمط في اثني عشر نموذجاً من ستة مختبرات مختلفة، مما يجعله دليلاً قوياً على فعالية هذه الآليات عبر أحجام مختلفة من البيانات (من 2B إلى 72B).

تعتبر أداة تعديل إشارة الطبقة المكتشفة عنصراً مهماً في التحكم بالسياسة، حيث يمكن التحكم من الرفض القاطع إلى المراوغة وصولاً إلى الإجابات الحقيقية. لكن اللافت هو أن التدخلات المتعلقة بالسلامة يمكن أن تُحول الرفض إلى إرشادات ضارة، مما يدل على أن القدرة على السلامة محكومة بالتوجيه وليس بالإزالة.

تختلف عتبات التحكم حسب الموضوع ولغة الإدخال، وتكيّف الدائرة نفسها عبر الأجيال داخل عائلة معينة حتى مع عدم تسجيل المقاييس السلوكية أي تغيير. يظهر البحث أن التوجيه يعتمد على الالتزام المبكر، حيث تُفعَل البوابة في طبقتها الخاصة قبل أن تنتهي الطبقات العميقة من معالجة المدخلات. بالإضافة إلى ذلك، تم تقديم طريقة جديدة تُدعى تشفير الاستبدال الداخلي، مما يؤدي إلى تقليص الحاجة لتبادل البوابة بين 70 و99% عبر ثلاثة نماذج. في النهاية، يمكن أن تؤدي أي تشفير يخترق أنماط الطبقات المكتشفة إلى تجاوز السياسة، بغض النظر عما إذا كانت الطبقات العميقة تعيد بناء المحتوى. هذا التطور يفتح آفاقاً جديدة لفهم آليات الأمان والتحكم في معالجة اللغة.