في عالم الذكاء الاصطناعي المتطور، تعد نماذج اللغة الضخمة (Large Language Models - LLMs) من أهم الأدوات التي أثبتت نجاحها في العديد من المهام اللغوية. لكن، تظل مشكلة نشر هذه النماذج على الأجهزة المحمولة تحديًا حقيقيًا بسبب الاحتياجات الكبيرة للذاكرة الناجمة عن عدد معاملاتها الكبير.
تُعتبر تقنية الكمية فقط للوزن (Weight-only quantization) حلاً واعدًا لتقليص متطلبات الذاكرة، ولكن الأساليب الحالية تركز عمومًا على الكمية بتنسيق صحيح (integer-bit quantization)، مما يحد من قدرتها على التكيف مع المهام ذات التنسيق الكسري.
في ضوء ذلك، نقدم تقنيتنا الجديدة: الكمية المختلطة للقنوات (Channel-Wise Mixed-Precision Quantization - CMPQ). وهي طريقة مبتكرة تقوم بتخصيص دقة الكمية بطريقة قنوية استنادًا إلى توزيعات النشاط. من خلال تخصيص مستويات دقة مختلفة لقنوات الوزن المختلفة، تدعم CMPQ إمكانيات مختلفة من عرض البت في النطاق المنخفض (مثل من 2 إلى 4 بت).
تعتمد CMPQ على استراتيجية كمّية غير موحدة وتدمج تقنيتين لاستخراج القيم الشاذة، مما يسهم في الحفاظ على المعلومات الحيوية بأقل قدر من خسائر الكمية.
أظهرت التجارب على تسعة نماذج مختلفة من LLMs أن CMPQ لا تعزز الأداء في مهام الكمية بتنسيق صحيح فحسب، بل تحقق أيضًا مكاسب أداء ملحوظة مع زيادة متواضعة في استخدام الذاكرة عبر تنفيذها بطريقة مختلطة.
تعتبر CMPQ منهجاً تكيفياً وفعّالاً في عملية الكمية لنماذج اللغة الضخمة، مقدمة فوائد كبيرة تتوافق مع قدرات الأجهزة المتنوعة. هل أنتم مستعدون لاستكشاف مستقبل الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!
ثورة كمية الدقة المختلطة للقنوات في نماذج اللغة الضخمة!
تقدم تقنيات الكمية المختلطة للقنوات (CMPQ) طريقة جديدة لتعزيز أداء نماذج اللغة الضخمة عبر تحسين استخدام الذاكرة. بفضل أسلوبها الفريد، تُعزز CMPQ من الكفاءة دون الحاجة لزيادة كبيرة في الذاكرة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
