تشكل التعقيدات التربيعية في حسابات الانتباه الذاتي (Self-Attention) داخل نماذج Transformers عائقًا رئيسيًا أمام معالجة التسلسلات الطويلة وتطبيق نماذج اللغات الضخمة (Large Language Models) بكفاءة. لذا، تم التركيز بشكل كبير على تطوير تقنيات الانتباه المتناثر (Sparse Attention). وقد تم دمج الطرق المختلفة لإنشاء مقاطع من الرموز (Tokens) لتقليل التعقيد الزمني.

في خطوة مبتكرة، يقدم البحث الجديد ما يُعرف بالانتباه المتناثر الموجه نحويًا (Grammatically-Guided Sparse Attention)، الذي يقيّد حسابات الانتباه بناءً على الأدوار النحوية للرموز. من خلال استخدام تصنيفات أجزاء الكلام (Parts-of-Speech - POS)، يتم إنشاء أقنعة الانتباه (Attention Masks) بشكل ديناميكي، مما يفرض علاقات لغوية متماسكة بين الرموز، ويقلل من الرسم البياني للحسابات دون التأثير على الاعتماد اللغوي الأساسي.

يقترح البحث استراتيجيتين للمسح: قناع صارم (Hard Mask) يسمح فقط بتفاعلات نحوية محددة مسبقًا، وقناع لين (Soft Mask) يميل الانتباه نحو تلك التفاعلات.

تُظهر التجارب التي أُجريت على مهمة تصنيف المشاعر SST-2 باستخدام بنية مشابهة لبنية DistilBERT أن الانتباه المتناثر الموجه نحويًا يحتفظ بدقة مشابهة للانتباه الكامل بينما يقلل بشكل كبير من الحمل الحسابي النظري. حيث حققت النتائج الأولية قيم دقة تصل إلى 0.8200 للقناع الصارم و0.8165 للقناع اللين، مما يتناسب مع دقة الانتباه الكامل التي تبلغ 0.8200. توفر هذه النتائج مسارًا نحو إنشاء نماذج Transformers أكثر كفاءة، قابلة للفهم، ومبنية على أسس لغوية.