في عالم الذكاء الاصطناعي، يعد تحسين سعة السياق في نماذج اللغة الكبيرة (Large Language Models) مسعى هام، لكن ذلك يأتي بتكاليف حاسوبية عالية جداً نتيجة آلية الانتباه الذاتي (Self-Attention) التي تتمتع بتعقيد يصل إلى O(N^2) بالنسبة لطول السلسلة. لكن هناك بصيص أمل، حيث يُظهر تحليل مصفوفة الانتباه أن معظمها يكون متناثراً، وخاصةً في السلاسل الطويلة.
مع الاتجاه الحديث نحو تحسين الانتباه الكتلي (Block-Sparse Attention)، تم تقسيم السلاسل إلى كتل لتجنب العمليات الحسابية غير الضرورية، إلا أن فعالية هذا الحل تتوقف على أنماط الانتباه القابلة للتطبيق، مما قد يؤدي إلى ضعف في الكفاءة. فمثلاً، قد يكون هناك تشتت في الرموز الرئيسية التي تحتاجها الاستفسارات ضمن كتلة واحدة، مما يزيد من التكرار الحسابي.
في خطوة متقدمة، قدّم الباحثون تقنية Permuted Block-Sparse Attention (PBS-Attn)، التي تمثل طريقة جديدة ومرنة تتيح تحسين الكفاءة عن طريق استغلال خصائص التبديل الخاصة بالانتباه لتعزيز الكفاءة في مستوى الكتل. من خلال سلسلة من التجارب الشاملة على مجموعات بيانات واقعية ذات سياقات طويلة، أثبتت PBS-Attn تفوقها على الطرق التقليدية المعتمدة على الانتباه الكتلي، لتقترب بدقة من أساسيات الانتباه الكامل.
بالإضافة إلى ذلك، باستخدام نوى permuted-FlashAttention المخصصة، تمكنت PBS-Attn من تحقيق تسريع يصل إلى 2.75 مرة في ملاءمة السياقات الطويلة، مما يثبت جدواها العملية في التطبيقات الحقيقية. الرمز البرمجي متاح عبر الرابط: [https://github.com/xinghaow99/pbs-attn].
ما رأيكم في هذا الابتكار الذي قد يغير قواعد اللعبة في تحسين أداء نماذج الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات!
ابتكار جديد في الذكاء الاصطناعي: تعزيز فعالية نماذج اللغة عبر تقنية الانتباه المتناظر!
أطلقت دراسات جديدة تقنية Permuted Block-Sparse Attention التي تساهم في تحسين أداء نماذج اللغة الكبيرة (LLMs) عبر زيادة كفاءة الحسابات وتقليل التكلفة الزمنية. نتائج الاختبارات تظهر تفوق هذه التقنية على الطرق التقليدية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
