الكشف المعماري في نماذج المحولات: كيف تتسبب الأخطاء القوية في الإخفاقات!

في عالم الذكاء الاصطناعي، تُعد نماذج المحولات (Transformers) واحدة من الابتكارات الأكثر تأثيرًا. ولكن، ماذا يحدث عندما تكون هناك مشكلة في المراقبة المعمارية لهذه النماذج؟ وفقًا لدراسة جديدة منشورة على arXiv، تعتمد مراقبة التفعيل (Activation Monitoring) على كيفية الاحتفاظ بإشارة جودة قرار داخلية أثناء التدريب، وهي الإشارة التي لا تظهرها الثقة في النتائج.

تُعرّف الدراسة "الكشفية" (Observability) بأنها القدرة على قراءة جودة القرار لكل عنصر من التسلسلات، من خلال قياسات التفعيل في الطبقات الوسطى بعد التحكم في الثقة وِمعدل تفعيل النماذج. أظهرت النتائج أن مراقبة الثقة تسيطر على حوالي 60.3% من الإشارات الأولية عبر 14 نموذج في 6 عائلات. ولكن الأهم من ذلك، أن الكشف ليس سمة عامة لنماذج المحولات.

من خلال تجربة على نموذج Pythia، تم ملاحظة أن جميع المحاولات الثلاث في إعدادات طبقات 24 ورؤوس 16 انهارت عند مستوى تكافؤ عند حوالي 0.10، بينما احتلت ستة تكوينات أخرى نطاقًا صحيًا يتراوح بين 0.21 و0.38. تشير الديناميكيات الخاصة بالنقاط الزمنية إلى أن المشكلة ليست عرضية، بل مرتبطة بكيفية تشكيل الإشارة في بداية التدريب.

تظهر الدراسة أن اختيار الهيكل المعماري يُعتبر قرارًا من قرارات المراقبة، مما يمثل مأزقًا مهمًا للمستقبل. وبالتالي، تبقى الأسئلة مطروحة: كيف يمكن لمراقبة الكشف أن تعزز أداء النماذج في المستقبل، وتفادي الأخطاء القوية قد تؤدي إلى انهيارات في الأداء؟

الكشف المعماري في نماذج المحولات: كيف تتسبب الأخطاء القوية في الإخفاقات!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

دفاعات إلكترونية مبتكرة: نموذج CyberSecQwen-4B وجعل الأمن الإلكتروني محليًا!

ثورة جديدة في نماذج اللغة الصغيرة: تحسين توليد Bash باعتماد تقنيات القواعد

إطلاق نموذج EMO: ثورة في التدريب المختلط للخبراء من أجل التحول المعياري!