في عالم الذكاء الاصطناعي، تُعد نماذج المحولات (Transformers) واحدة من الابتكارات الأكثر تأثيرًا. ولكن، ماذا يحدث عندما تكون هناك مشكلة في المراقبة المعمارية لهذه النماذج؟ وفقًا لدراسة جديدة منشورة على arXiv، تعتمد مراقبة التفعيل (Activation Monitoring) على كيفية الاحتفاظ بإشارة جودة قرار داخلية أثناء التدريب، وهي الإشارة التي لا تظهرها الثقة في النتائج.

تُعرّف الدراسة "الكشفية" (Observability) بأنها القدرة على قراءة جودة القرار لكل عنصر من التسلسلات، من خلال قياسات التفعيل في الطبقات الوسطى بعد التحكم في الثقة وِمعدل تفعيل النماذج. أظهرت النتائج أن مراقبة الثقة تسيطر على حوالي 60.3% من الإشارات الأولية عبر 14 نموذج في 6 عائلات. ولكن الأهم من ذلك، أن الكشف ليس سمة عامة لنماذج المحولات.

من خلال تجربة على نموذج Pythia، تم ملاحظة أن جميع المحاولات الثلاث في إعدادات طبقات 24 ورؤوس 16 انهارت عند مستوى تكافؤ عند حوالي 0.10، بينما احتلت ستة تكوينات أخرى نطاقًا صحيًا يتراوح بين 0.21 و0.38. تشير الديناميكيات الخاصة بالنقاط الزمنية إلى أن المشكلة ليست عرضية، بل مرتبطة بكيفية تشكيل الإشارة في بداية التدريب.

تظهر الدراسة أن اختيار الهيكل المعماري يُعتبر قرارًا من قرارات المراقبة، مما يمثل مأزقًا مهمًا للمستقبل. وبالتالي، تبقى الأسئلة مطروحة: كيف يمكن لمراقبة الكشف أن تعزز أداء النماذج في المستقبل، وتفادي الأخطاء القوية قد تؤدي إلى انهيارات في الأداء؟