في عالم الذكاء الاصطناعي، تمثل نماذج Transformers محوراً رئيسياً لفهم آلية العمل والتفاعل في تعلم الآلة. ومع تقدم الأبحاث في مجال التفسير الميكانيكي، بدأ الباحثون في إلقاء الضوء على أهمية رؤوس الانتباه (Attention Heads) كعناصر أساسية تدعي تمثيل سلوكيات معينة مثل الإضافة. لكن ماذا لو كانت هذه الادعاءات غير دقيقة؟

في دراسة جديدة، قام الباحثون بفحص فعالية رؤوس الانتباه في ثلاثة نماذج تم تدريبها على مهام تعليمية مختلفة بسعة 7-8 مليار وحدة تعليمية. وقد اكتشفوا أن الرؤوس التي كانت تُظهر تمثيلاً عادلاً، والتي استوفت كل المعايير المطلوبة، غالباً ما تفشل في تحويل الحسابات عندما تم دمج تنشيطها في نصوص جديدة تحت نفس الظروف المتطابقة.

لتجاوز هذه المشكلة، قدم الباحثون طريقة جديدة تُعرف باسم KID (معرفة / نية / تنفيذ) كعدسة لتعيين الأدوار لرؤوس الانتباه. تربط هذه الطريقة بين ثلاثة مراحل هي: الفحص الانتقائي للقدرات (Capability-Selective Screening)، تحليل القيمة الفردية (Singular Value Decomposition)، وتحويل التنشيط تحت ظروف متطابقة.

تظهر النتائج وجود تصنيفات أولية لدور رؤوس الانتباه مثل مثبتي مسارات الإرشادات، ورؤوس انحياز الإيجابات، وحوامل أنماط الحساب الناعمة. تشير الدراسة إلى أن استخدام اختبارات مثل السيطرة على نفس الإجابة، التي تنتج عن هدف تحويل يشارك في سلاسل الإجابات ولكن لا يطلب الحساب المعني، هو اختبار غير مستخدم بشكل كافٍ يكشف عن نقل حالات واسعة تظهر وكأنها خصوصية دلالية.

إن فهمنا المتزايد لدور رؤوس الانتباه يجعلنا نتساءل: هل نحن بحاجة إلى إعادة تقييم الطرق التي نعتمدها في قياس فعالية نماذج الذكاء الاصطناعي؟ في ضوء هذه الاكتشافات، ستبقى الأسئلة قائمة حول كيفية تحسين نماذج التعلم العميق وزيادة دقتها.