في عالم الذكاء الاصطناعي، تتسارع التطورات بسرعة مذهلة، وأحدثها تقنية Hierarchical Global Attention (HGA). هذه التقنية تمثل بديلاً متقدماً لتقنية الانتباه الكثيف (Dense Causal Attention) المستخدمة في نماذج المتحولات التي تتعامل مع سياقات طويلة.

ما يجعل HGA مميزاً هو أنها تحتفظ بنفس محددات النموذج المدرب مسبقًا، مما يعني أنه لا حاجة لإعادة التدريب أو إدخال أي معلمات جديدة. هذا يعكس كفاءة كبيرة في استخدام الموارد، حيث يمكن تطبيقها على نموذج Qwen3-30B-A3B-Instruct-2507-FP8 باستخدام عتاد RTX~5090 (32GB) دون أي مشكلات في الأداء.

تعمل تقنية HGA على تحسين أداء نماذج الذكاء الاصطناعي من خلال التخزين الهرمي للمعلومات، حيث تقوم أولاً بانتقاء القطع ذات الصلة عبر ملخصات مضغوطة مدركة للـ RoPE، ثم تنقيح الاختيار من خلال توجيه المجموعات الأكثر صلة. هذا الأسلوب لا يؤدي فقط إلى تقليل عدد الرموز المُسترجعة، بل يحافظ أيضًا على دقة الانتباه عبر مجموعة الرموز المخزنة.

بفضل هذه التقنية، يصبح من الممكن مواجهة تحديات التخزين المتعلق بالذاكرة العشوائية (RAM) أو تخزين NVMe، حيث يُحتفظ بكامل الرموز التاريخية في الذاكرة الرئيسية أو التخزين المباشر، بينما يتم نقل مجموعة العمل الصغيرة الضرورية فقط إلى ذاكرة GPU خلال مرحلة الانتباه.

وتشير النتائج إلى أن استهلاك الذاكرة الخاصة بـ GPU يعتمد أساسًا على أوزان النموذج ومجموعة العمل الموجهة، بدلاً من طول السياق الكلي. وكلما جربنا الأطوال المختلفة للسياقات (من 4K إلى 64K رموز)، تظهر HGA تفاعلاً متميزًا يحافظ على جودة قريبة جدًا من تقنية الانتباه الكثيف. هذا يشير إلى أن الفجوة المتبقية في الجودة قد تعود لأسباب تتعلق بالتشفير القائم على المواقع للسياقات الطويلة بدلاً من خوارزمية التوجيه ذاتها.

استعدوا لتجربة ثورة في معالجة المعلومات الكبيرة مع هذه الإمكانية الجديدة في عالم الذكاء الاصطناعي! ما رأيكم في هذا التطور؟ شاركونا في التعليقات.