في عالم الذكاء الاصطناعي، تعتبر الكفاءة عاملًا حاسمًا في أداء نماذج اللغات الكبيرة (Large Language Models). ولقد قدم الباحثون مؤخرًا APEX4، وهو نظام متطور يهدف إلى تسريع استنتاج نماذج اللغات من خلال تحسينات مبتكرة في تقنيات W4A4.
تقوم تقنية W4A4 بالاستفادة من قدرة نوى INT4 Tensor لكن التحدي كان يكمن في الانخفاض في أداء أنوية CUDA عند التحويل. من خلال دراسات منهجية على أربعة أنواع من وحدات معالجة الرسومات (GPUs) من عائلتي Ampere وAda، تم التعرف على نسبة تدفق Tensor Cores إلى CUDA Cores ($\rho$) كمؤشر رئيسي للأداء.
أثبتت أبحاث APEX4 أن استخدام نواة W4A4-g128 يمكن أن يحقق زيادة في السرعة تصل إلى 2.5 مرة على بطاقة RTX 3090، بينما كانت النتائج أقل على بطاقات A100 بسبب قيود حسابية معينة. ومع ذلك، فإن الابتكار لا يقتصر على هذه البطاقة فقط، بل تشمل تحسينات الأداء بطاقات أخرى مثل L40S وA40.
توفّر APEX4 نهج إعادة توازن جديد عن طريق تعديل الحبيبات (granularity) بناءً على نسبة $\rho$، مما يقلل بشكل كبير من عنق الزجاجة في معالجة البيانات. وبفضل APEX4، يتم تحقيق دقة صفرية (zero-shot accuracy) أعلى بنسبة تصل إلى 4.4% مقارنة بالنماذج السابقة، مما يعني نتائج أفضل وأسرع في التطبيقات المختلفة.
من خلال تطبيق APEX4 كبديل سلس في نظام vLLM، يمكن للمستخدمين الاستفادة من تسريع يصل إلى 1.78 مرة على RTX 3090 و2.09 مرة على A40، مما يمهد الطريق لتطبيقات ذكاء اصطناعي أكثر كفاءة وفعالية.
في نهاية المطاف، تقدم APEX4 تحسينات جديدة تخدم مجتمع الذكاء الاصطناعي بشكل عام، وتعزز من مكانة التطبيقات التي تعتمد على نماذج لغات كبيرة.
اكتشف APEX4: ثورة في تسريع استنتاج نماذج لغات الذكاء الاصطناعي بفضل إعادة توازن حسابات W4A4!
APEX4 يمثل إنجازًا بارزًا في تسريع استنتاج نماذج اللغات الكبيرة، حيث يحقق تسريعًا يصل إلى 2.09 مرة في الأداء. هذا الابتكار يعد تحسينًا هائلًا في كفاءة معالجة البيانات باستخدام تقنيات جديدة لموازنة الحسابات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
