تعد النماذج اللغوية المعتمدة على تقنية Transformers من أبرز الابتكارات في عالم الذكاء الاصطناعي، حيث بات يعتمد عليها عدد كبير من التطبيقات في مجالات متعددة. ولذلك، تصبح دراسة آليات هذه النماذج في حل المهام المعقدة وفهم سلوكها في السيناريوهات الجديدة أمرًا بالغ الأهمية.

في إطار هذا البحث، تم دراسة الديناميات التعليمية لرؤوس الانتباه في نموذج Transformer مخصص للترميز (Decoder-Only Transformer) وهو GPT-J، من خلال تدريب هذا النموذج على مهمتين متساويتين في الهيكل ولكن تختلفان في طبيعة المعالجة: مهمة تعتمد على الأرقام تتطلب تفكيرًا موضعيًا، وأخرى تعتمد على الحروف تتطلب معالجة رمزية.

استُخدمت طريقة جديدة لفهم سلوك رؤوس الانتباه، حيث تم تصنيفها كموضعية أو رمزية تبعًا للمهمة المُعطاة. وأظهرت النتائج أن التعلم الناجح يرتبط بظهور رؤوس نقية تعبر عن نفسها إما بوصفة موضعية أو رمزية. على الرغم من أن المهام تعادل في هيكلها، إلا أن هناك متطلبات مختلفة تتعلق بالآليات؛ فالعملية الموضعية تتطلب استخدام كل من الرؤوس الموضعية والرمزية، في حين أن المهمة الرمزية تتطلب فقط الرؤوس الرمزية.

في هذا السياق، تم تحديد الأدوار الحسابية المرتبطة بهذه الرؤوس، وتوصيف الوظائف الأساسية التي تنفذها. ومن خلال بناء نظري، تم توضيح كيف يمكن لرؤوس الانتباه المعتمدة على نموذج RoPE تنفيذ هذه الوظائف من خلال عمليات الاستعلام (Query) والمفتاح (Key) والقيمة (Value) بطرق هندسية قابلة للتفسير.

تقدم هذه الدراسة فصلًا كمّيًا بين الآليات الموضعيّة والرمزية، وكيفية استجابتها لطول السلاسل، والذي تم تعريفه من خلال مفهوم جديد يُعرف بـ”الاختلاف“. على مدار الدراسة، تم التحقق من صحة التنبؤات الناتجة عن هذه التحليلات سواء في النماذج الخاضعة للرقابة أو في البيئات الحقيقية، مما أظهر أن الآليات الرمزية قادرة على التعميم بشكل أكثر موثوقية على السلاسل الأطول، بينما تواجه الآليات الموضعية قيودًا أكثر حدة.