GlowQ: الحل الثوري لتحسين دقة نماذج اللغة الكمية!

تعتبر تقنيات الكم (Quantization) مثل BitsAndBytes وAWQ وGPTQ أدوات رئيسية في نشر نماذج اللغة الكبيرة (Large Language Models) لكن غالبًا ما تؤدي إلى انخفاض دقة الأداء عند استخدام تمثيلات منخفضة البت، مثل 4 بت. للتغلب على هذه المشكلة، تم اقتراح طرق تصحيح منخفضة الرتبة (Low-rank Correction Methods) مثل LQER وQERA وASER، إلا أن هذه الطرق غالبًا ما تستعيد جميع الطبقات وتُدخل وحدات تصحيح الأخطاء في كل كتلة مُفكِّك، مما يؤدي إلى زيادة في زمن الاستجابة وتحميل الذاكرة.

هنا تأتي ابتكارات GlowQ، التي تُمثل تقدمًا ملحوظًا من خلال تقديم تصحيح منخفض الرتبة مشترك موجه نحو المجموعات. يُمكن GlowQ تخزين عامل مشترك واحد فقط لكل مجموعة من المدخلات، مع استعادة فقط المجموعات أو الطبقات التي تحقق أكبر فائدة في الدقة. وبعد حساب الإسقاط بدقة عالية مرة واحدة لكل مجموعة إدخال، يمكن إعادة استخدامه عبر العناصر المختلفة، مما يقلل الحمل على الذاكرة ويحتفظ بالتعبير الفعال لتصحيحات الطبقات.

علاوة على ذلك، يتم تقديم نموذج مختار، GlowQ-S، الذي يطبق الوحدة المشتركة المخزنة فقط في الأماكن التي تحقق أكبر فائدة. أظهرت الإحصائيات أن نهج GlowQ قد حقق تقليصًا في زمن الاستجابة (TTFB) بنسبة 5.6% وزيادة في القدرة الإنتاجية (Throughput) بنسبة 9.6% في المتوسط، مع تقليل تعقيد الفقرات (Perplexity) على WikiText-2 بنسبة 0.17% وزيادة دقة النتائج اللاحقة بنسبة 0.42 نقطة مئوية. والجدير بالذكر أن النموذج المختار GlowQ-S قد حقق تقليصًا إضافيًا في زمن الاستجابة (TTFB) بنسبة 23.4% وزيادة في القدرة الإنتاجية بنسبة 37.4%، مع الحفاظ على دقة متقاربة بنسبة 0.2 نقطة مئوية في المتوسط.

للمطورين المهتمين، يمكن الاطلاع على الكود في [رابط GitHub](https://github.com/ahnselim/GlowQ) للاستفادة من هذه الابتكارات.

GlowQ: الحل الثوري لتحسين دقة نماذج اللغة الكمية!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ابتكار ثوري من NVIDIA: تسريع أداء نماذج الذكاء الاصطناعي بمعيار غير مسبوق!

فك الشيفرة العصبية: كيف نستخرج الميزات اللغوية من إشارات الدماغ باستخدام الذكاء الاصطناعي

ميتا تطلق Autodata: إطار وثيق يحوّل نماذج الذكاء الاصطناعي إلى علماء بيانات مستقلين!