تعاني نماذج اللغة الكبيرة (Large Language Models - LLMs) من تحديات في تكاليف الذاكرة والمعالجة، مما يُعيق استخدامها في العديد من التطبيقات. لكن تقنية جديدة تعرف بـ TWLA قد تفتح آفاقًا واسعة في هذا المجال. تأتي TWLA كإطار عمل للكمية بعد التدريب (Post-Training Quantization - PTQ)، حيث توفر ضغطًا للوزن يصل إلى 1.58 بت وتقليل دقة التفعيل إلى 4 بت، بينما تحافظ على دقة عالية.
يتضمن إجراء TWLA ثلاث مكونات رئيسة:
1. **كمبريشن الوزن الثلاثي غير المتناظر (E2M-ATQ)**: يعمل على تقليل خطأ مخرجات الطبقة تحت وزن الثلاثي عبر تحسين مزدوج من التهيئة الإقليدية إلى إعادة التموقع في المجسم.
2. **التشكيل ثلاثي التوجه باستخدام دوران كرونكر (KOTMS)**: يعيّن دورانًا هيكليًا كرونكريًا لتحسين الوزن في توزيع ثلاثي مناسب، مما يساعد في توحيد وتخفيف القيم غير الاعتيادية.
3. **دقة مختلطة واعية بين الطبقات (ILA-AMP)**: تقدم هذه التقنية تكاليف التفاعل بالمرتبة الثانية بين الطبقات في توزيع الكمية، مما يمنع المشكلات الناجمة عن بعض الطبقات الضعيفة.
أظهرت التجارب أن تقنية TWLA تحافظ على دقة عالية تحت مجموعة بيانات W1.58A4، بينما تحقق تسريعًا ملحوظًا في وقت الاستدلال. هذه النتائج تبشر بمستقبل واعد لناحية استخدام نماذج اللغة بشكل أكثر كفاءة وفعالية.
ما رأيكم في هذه التقنية الجديدة؟ هل تعتقدون أنها ستحدث ثورة في استخدام نماذج اللغة؟ شاركونا آراءكم في التعليقات!
ابتكار جديد: TWLA لتحسين نماذج اللغة عبر وزن ثلاثي وتفعيل منخفض الدقة!
تستعد TWLA لتعزيز نماذج اللغة الكبيرة (LLMs) عبر تقنية الوزن الثلاثي والتقليل من دقة التفعيل، مما يعزز من أداءها ويساهم في تقليل تكاليف الذاكرة. اكتشف كيف يمكن لهذه التقنية الجديدة أن تفتح آفاقًا جديدة في عالم الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
