في عالم الذكاء الاصطناعي، يُعد تحسين كفاءة استنتاجات نماذج اللغات الضخمة (LLMs) أمرًا حيويًا، خاصة في الإعدادات المعقدة التي تتطلب قدرًا كبيرًا من التفكير. ومن أحدث الابتكارات في هذا المجال تقنية الانتباه الموزع عبر الطبقات (Cross-Layer Sparse Attention - CLSA)، التي تسعى لتوفير حلاً فعالًا للمشكلات الحالية.
تعتمد تقنية CLSA على بنى مشاركة ذاكرة مفتاح القيمة (Key-Value Sharing) مثل نموذج YOCO، حيث يتم مشاركة فهرس التوجيه عبر الطبقات، مما يتيح لنموذج واحد حساب اختيار العناصر ذات الأهمية القصوى لكل توكن مرة واحدة وإعادة استخدام هذا الفهرس عبر الطبقات المختلفة.
تقدم هذه التقنية فوائد متعددة، حيث تسهم في تحسين جميع اختناقات الاستنتاج الرئيسية، بما في ذلك التخزين المؤقت للذاكرة وتشفير السياق الطويل، مما يسمح للنماذج بالتعامل بشكل أكثر فعالية مع السياقات الكبيرة.
أظهرت التجارب أن CLSA تحقق تسريعًا مذهلاً يصل إلى 7.6 ضعف في سرعة التشفير، بالإضافة إلى تحسين شديد في الأداء الإجمالي يصل إلى 17.1 مرة عند معالجة السياقات الطويلة بمقدار 128,000 توكن.
بهذا، يقدم CLSA نهجًا معماريًا أكثر شمولًا، يجمع بين تحسين جودة النماذج وكفاءتها، مما يفتح الأبواب أمام تطبيقات جديدة وتحسينات مذهلة في عالم الذكاء الاصطناعي.
تسريع استنتاجات الذكاء الاصطناعي: تعرف على تقنية الانتباه الموزع عبر الطبقات!
تقدم تقنية الانتباه الموزع عبر الطبقات (CLSA) حلاً مبتكرًا لمشكلة الكفاءة في استنتاجات نماذج اللغات الضخمة (LLMs)، مما يحقق تسريعًا يصل إلى 7.6 ضعف. يعمل CLSA على تحسين جودة النماذج وكفاءتها باستخدام استراتيجيات جديدة لمشاركة البيانات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
