تعاني نماذج اللغة الكبيرة (Large Language Models - LLMs) من تحديات في تكاليف الذاكرة والمعالجة، مما يُعيق استخدامها في العديد من التطبيقات. لكن تقنية جديدة تعرف بـ TWLA قد تفتح آفاقًا واسعة في هذا المجال. تأتي TWLA كإطار عمل للكمية بعد التدريب (Post-Training Quantization - PTQ)، حيث توفر ضغطًا للوزن يصل إلى 1.58 بت وتقليل دقة التفعيل إلى 4 بت، بينما تحافظ على دقة عالية.

يتضمن إجراء TWLA ثلاث مكونات رئيسة:

1. **كمبريشن الوزن الثلاثي غير المتناظر (E2M-ATQ)**: يعمل على تقليل خطأ مخرجات الطبقة تحت وزن الثلاثي عبر تحسين مزدوج من التهيئة الإقليدية إلى إعادة التموقع في المجسم.
2. **التشكيل ثلاثي التوجه باستخدام دوران كرونكر (KOTMS)**: يعيّن دورانًا هيكليًا كرونكريًا لتحسين الوزن في توزيع ثلاثي مناسب، مما يساعد في توحيد وتخفيف القيم غير الاعتيادية.
3. **دقة مختلطة واعية بين الطبقات (ILA-AMP)**: تقدم هذه التقنية تكاليف التفاعل بالمرتبة الثانية بين الطبقات في توزيع الكمية، مما يمنع المشكلات الناجمة عن بعض الطبقات الضعيفة.

أظهرت التجارب أن تقنية TWLA تحافظ على دقة عالية تحت مجموعة بيانات W1.58A4، بينما تحقق تسريعًا ملحوظًا في وقت الاستدلال. هذه النتائج تبشر بمستقبل واعد لناحية استخدام نماذج اللغة بشكل أكثر كفاءة وفعالية.

ما رأيكم في هذه التقنية الجديدة؟ هل تعتقدون أنها ستحدث ثورة في استخدام نماذج اللغة؟ شاركونا آراءكم في التعليقات!