في خطوة ثورية [نحو](/tag/نحو) [تحسين](/tag/تحسين) [كفاءة](/tag/كفاءة) [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) (Large Language [Models](/tag/models))، وضع الباحثون أسسًا جديدة تسمح بتحويل [نماذج الانتباه](/tag/[نماذج](/tag/نماذج)-[الانتباه](/tag/الانتباه)) الكامل (Full [Attention](/tag/attention)) إلى [نماذج](/tag/نماذج) عالية [الكفاءة](/tag/الكفاءة) باستخدام خطوات [تدريب](/tag/تدريب) قليلة. يبحث المقال في القضية الملحة المتعلقة بتكاليف معالجة [الانتباه](/tag/الانتباه) الكامل، التي تتزايد بشكل هائل مع ازدياد طول السياقات.

في السابق، كانت الحلول البديلة تنضوي على خيارات تعتمد على [التدريب](/tag/التدريب) الانتقائي أو على [أساليب](/tag/أساليب) تقديرية لطرد الرموز، مما يخلق توازنًا غير مرغوب فيه بين [الكفاءة](/tag/الكفاءة) وتكاليف [التدريب](/tag/التدريب) والدقة. لكن، تظهر [الأبحاث](/tag/الأبحاث) الجديدة أن [نماذج الانتباه](/tag/[نماذج](/tag/نماذج)-[الانتباه](/tag/الانتباه)) الكامل تحتوي على [خصائص](/tag/خصائص) فطرية تجعلها قابلة للتحول إلى [نماذج](/tag/نماذج) متفرقة (Sparse [Models](/tag/models)) بسهولة، وذلك من خلال ثلاثة ملاحظات رئيسية:

1. تعتمد [معالجة السياقات](/tag/معالجة-السياقات) الطويلة على مجموعة صغيرة من [رؤوس الانتباه](/tag/رؤوس-[الانتباه](/tag/الانتباه)) التي تحتاج فعليًا إلى هذه المعالجة.
2. يعتمد الاسترجاع الطويل المدى بشكل رئيسي على فرع منخفض الأبعاد، مما يسمح باسترجاع الرموز ذات الصلة بكفاءة باستخدام مُحدِّد 16 بعدًا.
3. يعتمد [ميزانية](/tag/ميزانية) الرموز المفيدة على الاستعلام، مما يجعل اختيار الرموز الديناميكي (top-p) أكثر ملاءمة من [التخصيص](/tag/التخصيص) الثابت (top-k).

بناءً على هذه الرؤى، أُدخلت [تقنية جديدة](/tag/[تقنية](/tag/تقنية)-جديدة) تُسمى RTPurbo، التي تحتفظ بكامل [ذاكرة](/tag/ذاكرة) القيم (KV cache) فقط لرؤوس الاسترجاع وتقدم مُحدِّدًا خفيف الوزن للانتباه المتفرق.

تظهر [التجارب](/tag/التجارب) على [مقاييس](/tag/مقاييس) [السياقات الطويلة](/tag/السياقات-الطويلة) ومهام [الاستدلال](/tag/الاستدلال) أن RTPurbo تحافظ على [دقة](/tag/دقة) قريبة من دون فقدان مع تقديم فوائد [كفاءة](/tag/كفاءة) كبيرة، بما في ذلك [تسريع](/tag/تسريع) يصل إلى 9.36 مرة في [السرعة](/tag/السرعة) عند سياق 1 مليون وكفاءة تصل إلى [نحو](/tag/نحو) 2.01 مرة في [السرعة](/tag/السرعة) عند [فك](/tag/فك) الترميز. تشير هذه النتائج إلى أن [الاستنتاج](/tag/الاستنتاج) المتفرق القوي يمكن الحصول عليه من [تدريب](/tag/تدريب) [نماذج الانتباه](/tag/[نماذج](/tag/نماذج)-[الانتباه](/tag/الانتباه)) الكامل القياسية دون حاجة إلى [تدريب](/tag/تدريب) إضافي مكلف.