في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) المتطور، تبرز أهمية [تحسين](/tag/تحسين) [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)) المخصصة (Instruction-Tuned Language [Models](/tag/models)) من خلال [استراتيجيات](/tag/استراتيجيات) ضغط متقدمة. في هذا الدليل، سنستعرض كيفية تطبيق [تقنيات](/tag/تقنيات) ما بعد [التدريب](/tag/التدريب) (Post-Training [Quantization](/tag/quantization)) على هذه [النماذج](/tag/النماذج) باستخدام [أداة](/tag/أداة) [llmcompressor](/tag/llmcompressor) الشهيرة.
نبدأ بتحديد نقطة أساس وهي [النماذج](/tag/النماذج) FP16، ثم نقوم بمقارنة عدة [استراتيجيات](/tag/استراتيجيات) ضغط، تتضمن:
1. **ضغط ديناميكي [FP8](/tag/fp8) ([FP8](/tag/fp8) Dynamic [Quantization](/tag/quantization))**: [تقنية](/tag/تقنية) تقلل من حجم النموذج دون التأثير الملحوظ على [الأداء](/tag/الأداء).
2. **GPTQ W4A16**: [استراتيجية](/tag/استراتيجية) توازن بين الحجم والكفاءة، تعتمد على [تقنية](/tag/تقنية) الـ [Quantization](/tag/quantization) الرائجة.
3. **SmoothQuant مع GPTQ W8A8**: [تقنية](/tag/تقنية) مبتكرة تقدم [تحسينات](/tag/تحسينات) ملحوظة في [سرعة](/tag/سرعة) إجراء الاستدعاءات.
خلال هذا العرض، سنقوم بقياس [أداء](/tag/أداء) كل [نموذج](/tag/نموذج) من حيث حجم التخزين، زمن الاستجابة، معدل الإنتاجية، ودرجة التعقيد ([Perplexity](/tag/perplexity)). تساعد هذه [المعايير](/tag/المعايير) في اختيار الاستراتيجية الأكثر ملاءمة لك حسب احتياج المشروع وتوجهاته.
انضم إلينا في [اكتشاف](/tag/اكتشاف) كيف يمكن لضغط هذه [النماذج](/tag/النماذج) أن يحدث فرقاً كبيراً في [كفاءة](/tag/كفاءة) [التطبيقات](/tag/التطبيقات) المستخدمة في الحياة اليومية، ويساهم في تعزيز [تجربة المستخدم](/tag/تجربة-المستخدم) بشكل عام!
كيف تضغط وتختبر نماذج اللغة المخصصة باستخدام تقنيات متقدمة؟
تعرف على كيفية تطبيق تقنيات ضغط النماذج بعد التدريب لتقليل الحجم وزيادة الكفاءة باستخدام أدوات مثل llmcompressor. استعد لاكتشاف استراتيجيات مبتكرة لتحسين أداء نماذج الذكاء الاصطناعي!
المصدر الأصلي:مارك تيك بوست
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
