في خطوة ثورية [نحو](/tag/نحو) [تحسين](/tag/تحسين) [كفاءة](/tag/كفاءة) [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) (Large Language [Models](/tag/models))، وضع الباحثون أسسًا جديدة تسمح بتحويل [نماذج الانتباه](/tag/[نماذج](/tag/نماذج)-[الانتباه](/tag/الانتباه)) الكامل (Full [Attention](/tag/attention)) إلى [نماذج](/tag/نماذج) عالية [الكفاءة](/tag/الكفاءة) باستخدام خطوات [تدريب](/tag/تدريب) قليلة. يبحث المقال في القضية الملحة المتعلقة بتكاليف معالجة [الانتباه](/tag/الانتباه) الكامل، التي تتزايد بشكل هائل مع ازدياد طول السياقات.
في السابق، كانت الحلول البديلة تنضوي على خيارات تعتمد على [التدريب](/tag/التدريب) الانتقائي أو على [أساليب](/tag/أساليب) تقديرية لطرد الرموز، مما يخلق توازنًا غير مرغوب فيه بين [الكفاءة](/tag/الكفاءة) وتكاليف [التدريب](/tag/التدريب) والدقة. لكن، تظهر [الأبحاث](/tag/الأبحاث) الجديدة أن [نماذج الانتباه](/tag/[نماذج](/tag/نماذج)-[الانتباه](/tag/الانتباه)) الكامل تحتوي على [خصائص](/tag/خصائص) فطرية تجعلها قابلة للتحول إلى [نماذج](/tag/نماذج) متفرقة (Sparse [Models](/tag/models)) بسهولة، وذلك من خلال ثلاثة ملاحظات رئيسية:
1. تعتمد [معالجة السياقات](/tag/معالجة-السياقات) الطويلة على مجموعة صغيرة من [رؤوس الانتباه](/tag/رؤوس-[الانتباه](/tag/الانتباه)) التي تحتاج فعليًا إلى هذه المعالجة.
2. يعتمد الاسترجاع الطويل المدى بشكل رئيسي على فرع منخفض الأبعاد، مما يسمح باسترجاع الرموز ذات الصلة بكفاءة باستخدام مُحدِّد 16 بعدًا.
3. يعتمد [ميزانية](/tag/ميزانية) الرموز المفيدة على الاستعلام، مما يجعل اختيار الرموز الديناميكي (top-p) أكثر ملاءمة من [التخصيص](/tag/التخصيص) الثابت (top-k).
بناءً على هذه الرؤى، أُدخلت [تقنية جديدة](/tag/[تقنية](/tag/تقنية)-جديدة) تُسمى RTPurbo، التي تحتفظ بكامل [ذاكرة](/tag/ذاكرة) القيم (KV cache) فقط لرؤوس الاسترجاع وتقدم مُحدِّدًا خفيف الوزن للانتباه المتفرق.
تظهر [التجارب](/tag/التجارب) على [مقاييس](/tag/مقاييس) [السياقات الطويلة](/tag/السياقات-الطويلة) ومهام [الاستدلال](/tag/الاستدلال) أن RTPurbo تحافظ على [دقة](/tag/دقة) قريبة من دون فقدان مع تقديم فوائد [كفاءة](/tag/كفاءة) كبيرة، بما في ذلك [تسريع](/tag/تسريع) يصل إلى 9.36 مرة في [السرعة](/tag/السرعة) عند سياق 1 مليون وكفاءة تصل إلى [نحو](/tag/نحو) 2.01 مرة في [السرعة](/tag/السرعة) عند [فك](/tag/فك) الترميز. تشير هذه النتائج إلى أن [الاستنتاج](/tag/الاستنتاج) المتفرق القوي يمكن الحصول عليه من [تدريب](/tag/تدريب) [نماذج الانتباه](/tag/[نماذج](/tag/نماذج)-[الانتباه](/tag/الانتباه)) الكامل القياسية دون حاجة إلى [تدريب](/tag/تدريب) إضافي مكلف.
ثورة في الذكاء الاصطناعي: تحويل الانتباه الكامل إلى نماذج عالية الكفاءة في خطوات تدريب محدودة!
تمكن الباحثون من تحويل نماذج الانتباه الكامل (Full Attention) إلى نماذج ذات كفاءة عالية باستخدام خطوات تدريب قليلة، مما يبشر بزيادة كبيرة في الأداء. تشير النتائج إلى إمكانية الاستغناء عن تدريب إضافي باهظ التكلفة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
