في عالم الذكاء الاصطناعي، أصبحت النماذج اللغوية الكبيرة (LLMs) هي القاعدة الأساسية للتطورات التقنية الحديثة. ومع ذلك، ظلت آلية الانتباه، التي تعد حجر الزاوية لهذه النماذج، على حالها دون تغيير جذري على مدار السنوات.

أحد التطورات الجديدة هو آلية "الانتباه المحلي الخطي (Local Linear Attention)"، والتي تعتمد على إحصائيات غير معلمات في إطار انحدار زمن الاختبار. على عكس الأبحاث السابقة التي تناولت تحسينات على آليات الانتباه، تمتاز هذه الآلية بترقية تقديرات الثبات المحلي في الانتباه القائم على سوفتماكس إلى تقديرات خطية محلية، مما يوفر تنسيقًا أفضل بين التحيز والتباين لذاكرة الارتباط.

ومع ذلك، لم يتم استخدام الانتباه المحلي الخطي بشكل موسع في مرحلة تدريب النماذج اللغوية الكبيرة بسبب المخاوف المتعلقة بالاستقرار العددي والحسابي. هنا تأتي بارالاكس (Parallax) لتحل هذه المشكلة، حيث تعد آلية مؤهلة من الانتباه المحلي الخطي القابلة للتوسع مع الاحتفاظ بالكفاءة العالية.

تقوم بارالاكس بإزالة أجهزة الحل العددي المستخدمة في الانتباه المحلي الخطي وتتعلم جهاز عرض مشابه للاستعلام يستكشف تباين KV. كما تتواجد بارالاكس ضمن مجموعة من آليات الانتباه المرتبطة بالنطاق والبناء التحقيقي والبنية الطيفية.

قمنا أيضًا بتطوير خوارزمية مدروسة تأخذ في الاعتبار الأجهزة لزيادة كثافة الحسابات مقارنةً مع FlashAttention، مما يحول الانتباه إلى نظام أكثر اعتمادًا على الحساب.

تجاربنا الأولية تظهر أن أداء نموذج بارالاكس يمكن أن يتفوق أو يضاهي FlashAttention 2/3 عبر أحجام دفعات مختلفة وأطوال سياقات متنوعة. تم تدريب بارالاكس على مقاييس 0.6B و1.7B ووجدنا تحسينات متسقة في الإرباك طوال فترة التدريب، مع مكاسب تنتقل إلى تقييمات لاحقة.

وهنا يأتي التساؤل: ما الذي ستحمله بارالاكس للنماذج اللغوية الكبيرة في المستقبل؟ هذا الاكتشاف يعد أول إثبات تجريبي لصياغة الرموز بين المعمارية والمشغلات في الأدبيات البحثية حول آليات الانتباه.