في خطوة ثورية نحو تحسين كفاءة نماذج اللغة الكبيرة (Large Language Models)، وضع الباحثون أسسًا جديدة تسمح بتحويل نماذج الانتباه الكامل (Full Attention) إلى نماذج عالية الكفاءة باستخدام خطوات تدريب قليلة. يبحث المقال في القضية الملحة المتعلقة بتكاليف معالجة الانتباه الكامل، التي تتزايد بشكل هائل مع ازدياد طول السياقات.

في السابق، كانت الحلول البديلة تنضوي على خيارات تعتمد على التدريب الانتقائي أو على أساليب تقديرية لطرد الرموز، مما يخلق توازنًا غير مرغوب فيه بين الكفاءة وتكاليف التدريب والدقة. لكن، تظهر الأبحاث الجديدة أن نماذج الانتباه الكامل تحتوي على خصائص فطرية تجعلها قابلة للتحول إلى نماذج متفرقة (Sparse Models) بسهولة، وذلك من خلال ثلاثة ملاحظات رئيسية:

1. تعتمد معالجة السياقات الطويلة على مجموعة صغيرة من رؤوس الانتباه التي تحتاج فعليًا إلى هذه المعالجة.
2. يعتمد الاسترجاع الطويل المدى بشكل رئيسي على فرع منخفض الأبعاد، مما يسمح باسترجاع الرموز ذات الصلة بكفاءة باستخدام مُحدِّد 16 بعدًا.
3. يعتمد ميزانية الرموز المفيدة على الاستعلام، مما يجعل اختيار الرموز الديناميكي (top-p) أكثر ملاءمة من التخصيص الثابت (top-k).

بناءً على هذه الرؤى، أُدخلت تقنية جديدة تُسمى RTPurbo، التي تحتفظ بكامل ذاكرة القيم (KV cache) فقط لرؤوس الاسترجاع وتقدم مُحدِّدًا خفيف الوزن للانتباه المتفرق.

تظهر التجارب على مقاييس السياقات الطويلة ومهام الاستدلال أن RTPurbo تحافظ على دقة قريبة من دون فقدان مع تقديم فوائد كفاءة كبيرة، بما في ذلك تسريع يصل إلى 9.36 مرة في السرعة عند سياق 1 مليون وكفاءة تصل إلى نحو 2.01 مرة في السرعة عند فك الترميز. تشير هذه النتائج إلى أن الاستنتاج المتفرق القوي يمكن الحصول عليه من تدريب نماذج الانتباه الكامل القياسية دون حاجة إلى تدريب إضافي مكلف.