في الآونة الأخيرة، نشرت دراسة مثيرة عن تأثير تكلفة تخصيص المساحات على ضغط نماذج اللغة الكبيرة (Large Language Models - LLMs) دون الحاجة إلى تدريب مسبق. يتمثل الهدف الرئيسي لهذه الدراسة في اختبار ما إذا كان توجيه تكاليف التخصيص وفقًا لهدف الإخراج يمكن أن يعزز دقة النموذج المضغوط.
تعتمد الطريقة المعروفة باسم ROCKET على دمج تحليل الأسباب النادرة (sparse-dictionary factorization) مع مشكلة حقيبة متعددة الخيارات (multi-choice knapsack problem - MCKP)، وتستمد عامل التخصيص لكل طبقة من هدف إعادة بناء الإخراج، بينما تستخدم خطأ فوبينيوس في مساحة الوزن كتكلفة لتخصيص MCKP.
أظهرت النتائج المستخلصة من تجربة على نموذج Qwen3-8B عند ضغط بنسبة 50% أن تطبيق ROCKET بتكاليف مخصصة (ROCKET-ActCost) حقق زيادة بمقدار 0.8 نقطة مئوية في الدقة المتوسطة عبر 8 اختبارات غير موجهة (zero-shot benchmarks) مقارنة بالأسلوب التقليدي (53.1% مقابل 52.3%). ومع ذلك، أدت هذه الزيادة إلى زيادة بنسبة 16% في تعقيد النصوص (perplexity) في WikiText (61.46 مقابل 52.98)!
تكشف دراسة الدقة مقابل التعقيد أن الأهداف المختلفة للتخصيص تؤثر على العديد من المقاييس المختلفة، حيث حقق كل منهما نتائج مختلفة. الجدير بالذكر أن العلاقة العالية (> 0.99) بين الأخطاء في مساحة الوزن وأخطاء منطقة الإخراج تحد من تباين التخصيص، مما يفسر التأثير المتواضع لأساليب التخصيص.
عند تطبيق هذه الأساليب على نموذج Llama-3.2-1B بنسبة ضغط 20%، كانت النتائج متطابقة تقريبًا (53.3% مقابل 53.5% دقة، و14.45 مقابل 14.66 PPL)، مما يشير إلى أن تأثير دالة التكلفة يكون طفيفًا عند انخفاض نسب الضغط. بنهاية المطاف، تبين أن اتخاذ قرارات الضغط المناسبة قد يكون الحيلة للحصول على نماذج أفضل مصممة وفق احتياجات محددة.
فهل تعتقدون أن مثل هذه الابتكارات ستحدث تحولاً في مجال ضغط نماذج اللغة؟ شاركونا آراءكم في التعليقات!
استكشاف تكلفة تخصيص المساحات في ضغط نماذج اللغة الكبيرة: دراسة تجريبية مبتكرة!
تظهر دراسة جديدة أن الأساليب الخالية من التدريب في ضغط نماذج اللغة الكبيرة يمكن أن تحسن دقة النماذج من خلال توجيه خيارات الضغط باستخدام البيانات المعايرة. لكن هل للتكاليف المختلفة تأثير على دقة النموذج؟
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
