في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) المتطور، تبرز [تقنية](/tag/تقنية) مجموعة الاستعلام الكامنة (Group-Query Latent [Attention](/tag/attention) - GQLA) كخطوة ثورية [نحو](/tag/نحو) تعزيز [أداء](/tag/أداء) [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) على [الأجهزة](/tag/الأجهزة) المتنوعة. تعتمد GQLA على [تحسين](/tag/تحسين) كيفية [معالجة البيانات](/tag/معالجة-[البيانات](/tag/البيانات)) من خلال تعديلات بسيطة على [تقنية](/tag/تقنية) [الانتباه](/tag/الانتباه) المتعدد الرأس (Multi-head Latent [Attention](/tag/attention) - [MLA](/tag/mla)) المستخدمة سابقًا في [DeepSeek](/tag/deepseek)-V2/V3.
تقوم [تقنية GQLA](/tag/[تقنية](/tag/تقنية)-gqla) بالجمع بين مفتاحين وقيم في [نموذج](/tag/نموذج) منخفض الرتبة، مما يحقق أداءً اقرب إلى السقف الأدائي لما يُعرف بـ [H100](/tag/h100) دون [تكاليف](/tag/تكاليف) إضافية من حيث الاستهلاك الحسابي. ولكن، كانت المشكلة في الأوزان المدربة سابقًا لـ [MLA](/tag/mla) التي قدمت مسارًا وحيدًا للاستنتاج، مما قيد [الكفاءة](/tag/الكفاءة) إلى حدود معينة ولم يدعم تعددية [التنبؤ](/tag/التنبؤ) (Multi-Token Prediction - MTP) على [وحدات معالجة الرسوميات](/tag/وحدات-معالجة-الرسوميات) العمومية مثل H20.
تقدم GQLA حلًا مبتكرًا [عبر](/tag/عبر) توفير مسارين متوازيين لاستنتاج [البيانات](/tag/البيانات): مسار يماثل مسار [MLA](/tag/mla) المعروف، وآخر موسع يدعم [ذاكرة](/tag/ذاكرة) مؤقتة لكل مجموعة. مما يتيح للنموذج اختيار المسار الأنسب بناءً على الجهاز المستخدم، دون الحاجة لإعادة [تدريب](/tag/تدريب) أو إنشاء نوى مخصصة جديدة.
تتمتع GQLA بكفاءة فائقة مقارنة بالنماذج السابقة، حيث يمكنها [تحقيق](/tag/تحقيق) [أداء عالٍ](/tag/[أداء](/tag/أداء)-عالٍ) على [أجهزة](/tag/أجهزة) [H100](/tag/h100) وأيضًا على H20 مع [دعم](/tag/دعم) لتعددية الأسمنت الصفري (zero-redundancy tensor parallelism) لتمكين [تحسينات](/tag/تحسينات) إضافية. ولم يكن يتعين على [المطورين](/tag/المطورين) الإخفاق في نماذجهم السابقة، حيث تم [تطوير](/tag/تطوير) TransGQLA، الذي يسمح بالتحويل من نقطة [فحص](/tag/فحص) مسبقة [التدريب](/tag/التدريب) إلى [نموذج](/tag/نموذج) GQLA بكفاءة عالية.
هذه [التقنية](/tag/التقنية) تعد بمثابة خطوة جديدة [نحو](/tag/نحو) [تحسين [أداء](/tag/أداء) النماذج](/tag/[تحسين](/tag/تحسين)-[أداء](/tag/أداء)-[النماذج](/tag/النماذج)) في الذكاء الاصطناعي، وفتح آفاق جديدة للتقدم في هذا المجال. فما رأيكم في هذه [التقنية](/tag/التقنية) الجديدة؟ هل تعتقدون أنها ستساهم في [تسريع](/tag/تسريع) [تطور](/tag/تطور) [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي)؟ شاركونا آراءكم في [التعليقات](/tag/التعليقات)!
ثورة في نماذج الذكاء الاصطناعي: GQLA وابتكار تكنولوجيا تخفيض المعالجة!
تقدم تقنية GQLA حلولاً مبتكرة لتسهيل عملية استنتاج نماذج اللغات الضخمة (Large Language Models) عبر تحسين كفاءة استخدام الموارد الحاسوبية. اقرأ المزيد عن كيف يمكن أن تُحدث هذه التقنية الجديدة ثورة في الأداء!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
