في عالم الذكاء الاصطناعي، تتزايد التحديات المرتبطة بتقديم نماذج اللغة الكبيرة (LLMs) بكفاءة اقتصادية. حيث تُعتبر تقنية التكميم (Quantization) أداة أساسية لتقليل تكاليف الأداء، ولكن حتى أحدث تقنيات التكميم ذات 4 بت لا تزال تعاني من فجوة ملحوظة في الجودة عند مقارنتها بالنماذج الأكثر دقة، مثل FP16، خاصة في حالة النماذج الصغيرة التي تستفيد من الأداء منخفض البت.
تكمن المشكلة الرئيسية في أن أخطاء التكميم ليست ثابتة، بل تعتمد بشكل كبير على المدخلات وتختلف بشكل كبير بين الرموز. في حين أن الطرق الحالية لتعويض الأخطاء بعد التكميم تُطبق تصحيحات ثابتة على جميع المدخلات، مما يؤدي إلى تصحيحات مفرطة لبعض الرموز وعجز في تصحيح الرموز الصعبة.
جاء نظام SPEAR ليقدم حلاً مبتكراً يهدف إلى تحسين استعادة الأخطاء بعد التكميم. حيث يعتمد SPEAR على استخدام وحدات تعويض أخطاء خفيفة الوزن (Error Compensators - EC) التي تعمل بتعديل متغير مع كل رمز، مركزةً الجهود فقط في الطبقات الأكثر حساسية للأخطاء، والتي تم الكشف عنها من خلال تشخيصات تعتمد على الانتروبيا (entropy-aware diagnostic) guided by CKA.
يواجه تقديم وحدات EC تحديات عدة تتعلق بالأنظمة، مثل الحاجة إلى حسابات إضافية وتزامن المعالجة المتوازية بسبب التبديل المعتمد على المدخلات، بالإضافة إلى عدم استقرار الكمون في الإعدادات المختلفة. ولحل هذه القضايا، اعتمد SPEAR على تقنيات مبتكرة مثل توزيع دمج النواة التكيفي (adaptive kernel-fusion dispatch) لتوحيد العمليات الحسابية المتعلقة بوحدات EC ضمن عمليات ذات بت منخفضة، مما يحافظ على أداء تشغيل متوقع.
في التجارب التي تم إجراؤها، عادت SPEAR لتستعيد ما بين 56-75% من الفجوة في تعقيد الجمل بين التكميم W4 وFP16، مع إضافة أقل من 1% كحمل إضافي على الذاكرة، مع الحفاظ على الكمون مشابهًا لتطبيقات التكميم الشائعة ذات 4 بت.
تطالعنا SPEAR بنموذج جديد في عالم الذكاء الاصطناعي، حيث تفتح الأبواب أمام تقديم فعّال ومستدام لنماذج اللغة الكبيرة بشكل أكثر دقة وأقل تكلفة. هل أنتم مستعدون لاستكشاف تأثير ذلك على مستقبل الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات.
SPEAR: نظام مبتكر لاستعادة الأخطاء بعد التكميم يعزز كفاءة نماذج اللغة منخفضة البت!
تقدم SPEAR حلاً ذكياً لتقليل الفجوة في الجودة أثناء تقديم نماذج اللغة الكبيرة بعد التكميم. من خلال استخدام تقنيات متقدمة، يمكن الآن تحسين كفاءة النماذج ذات البت المنخفض بشكل ملحوظ!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
