في عالم الذكاء الاصطناعي، تعد نماذج الانتباه المهجنة التي تجمع بين الانتباه الكامل (Full Attention) والانتباه المنزلق (Sliding-Window Attention) حلاً واعداً لتحقيق استدلال فعال على السياقات الطويلة. ولكن لا يزال السؤال الجوهري حول “ما هي الطبقات التي يجب أن تحتفظ بالانتباه الكامل؟” بدون إجابة واضحة.

تستخدم الأساليب الحالية أنماطاً دورية ثابتة أو استدلالات قائمة على الانتباه قد لا تعكس حقاً ما هو مهم للدقة في النتائج. هنا تتدخل الابتكارات الجديدة.

نقدم لكم طريقة جديدة قائمة على اختيار الطبقات باستخدام NLL-guided، والتي تعتبر طريقة خالية من التدريب تقيس أهمية كل طبقة عن طريق حساب تدهور السجل السلبي (Negative Log-Likelihood) على الرموز المستجوبة عند استخدام الانتباه المنزلق بدلاً من الانتباه الكامل.

عند تطبيق هذا النهج على مجموعة LongMemEval مع نموذج Qwen3-4B، حققنا دقة قدرها 64.6% باستخدام ربع عدد طبقات الانتباه الكامل، مما يماثل مستوى الأساس الدوري (65.0%) بينما تقلل من الميزانية الحاسوبية بمعدل النصف.

تتجاوز تقنية اختيار الطبقات المستندة إلى NLL إعدادات الصندوق 1/4-FA المستخدمة في SWAA بفارق 10.4 نقاط مئوية وبمعدل 26.4 نقطة مقارنة بنموذج LightTransfer.

تحليل إلغاء التداخل يظهر أن الإشارة تتماشى مع الحاجة إلى الانتباه بعيدة المدى بدلاً من حساسية الطبقة العامة. والأفضل من ذلك، هذه الطريقة تتطلب فقط حوالي 15 دقيقة من المعايرة لمرة واحدة، مما يسهم في تعزيز كفاءة وفاعلية نماذج LLM على المدى الطويل.