في عالم الذكاء الاصطناعي المتطور، تبرز تقنية مجموعة الاستعلام الكامنة (Group-Query Latent Attention - GQLA) كخطوة ثورية نحو تعزيز أداء نماذج اللغات الضخمة (Large Language Models) على الأجهزة المتنوعة. تعتمد GQLA على تحسين كيفية معالجة البيانات من خلال تعديلات بسيطة على تقنية الانتباه المتعدد الرأس (Multi-head Latent Attention - MLA) المستخدمة سابقًا في DeepSeek-V2/V3.
تقوم تقنية GQLA بالجمع بين مفتاحين وقيم في نموذج منخفض الرتبة، مما يحقق أداءً اقرب إلى السقف الأدائي لما يُعرف بـ H100 دون تكاليف إضافية من حيث الاستهلاك الحسابي. ولكن، كانت المشكلة في الأوزان المدربة سابقًا لـ MLA التي قدمت مسارًا وحيدًا للاستنتاج، مما قيد الكفاءة إلى حدود معينة ولم يدعم تعددية التنبؤ (Multi-Token Prediction - MTP) على وحدات معالجة الرسوميات العمومية مثل H20.
تقدم GQLA حلًا مبتكرًا عبر توفير مسارين متوازيين لاستنتاج البيانات: مسار يماثل مسار MLA المعروف، وآخر موسع يدعم ذاكرة مؤقتة لكل مجموعة. مما يتيح للنموذج اختيار المسار الأنسب بناءً على الجهاز المستخدم، دون الحاجة لإعادة تدريب أو إنشاء نوى مخصصة جديدة.
تتمتع GQLA بكفاءة فائقة مقارنة بالنماذج السابقة، حيث يمكنها تحقيق أداء عالٍ على أجهزة H100 وأيضًا على H20 مع دعم لتعددية الأسمنت الصفري (zero-redundancy tensor parallelism) لتمكين تحسينات إضافية. ولم يكن يتعين على المطورين الإخفاق في نماذجهم السابقة، حيث تم تطوير TransGQLA، الذي يسمح بالتحويل من نقطة فحص مسبقة التدريب إلى نموذج GQLA بكفاءة عالية.
هذه التقنية تعد بمثابة خطوة جديدة نحو تحسين أداء النماذج في الذكاء الاصطناعي، وفتح آفاق جديدة للتقدم في هذا المجال. فما رأيكم في هذه التقنية الجديدة؟ هل تعتقدون أنها ستساهم في تسريع تطور نماذج الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!
ثورة في نماذج الذكاء الاصطناعي: GQLA وابتكار تكنولوجيا تخفيض المعالجة!
تقدم تقنية GQLA حلولاً مبتكرة لتسهيل عملية استنتاج نماذج اللغات الضخمة (Large Language Models) عبر تحسين كفاءة استخدام الموارد الحاسوبية. اقرأ المزيد عن كيف يمكن أن تُحدث هذه التقنية الجديدة ثورة في الأداء!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
