في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) المتطور، تبرز أهمية [تحسين](/tag/تحسين) [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)) المخصصة (Instruction-Tuned Language [Models](/tag/models)) من خلال [استراتيجيات](/tag/استراتيجيات) ضغط متقدمة. في هذا الدليل، سنستعرض كيفية تطبيق [تقنيات](/tag/تقنيات) ما بعد [التدريب](/tag/التدريب) (Post-Training [Quantization](/tag/quantization)) على هذه [النماذج](/tag/النماذج) باستخدام [أداة](/tag/أداة) [llmcompressor](/tag/llmcompressor) الشهيرة.

نبدأ بتحديد نقطة أساس وهي [النماذج](/tag/النماذج) FP16، ثم نقوم بمقارنة عدة [استراتيجيات](/tag/استراتيجيات) ضغط، تتضمن:
1. **ضغط ديناميكي [FP8](/tag/fp8) ([FP8](/tag/fp8) Dynamic [Quantization](/tag/quantization))**: [تقنية](/tag/تقنية) تقلل من حجم النموذج دون التأثير الملحوظ على [الأداء](/tag/الأداء).
2. **GPTQ W4A16**: [استراتيجية](/tag/استراتيجية) توازن بين الحجم والكفاءة، تعتمد على [تقنية](/tag/تقنية) الـ [Quantization](/tag/quantization) الرائجة.
3. **SmoothQuant مع GPTQ W8A8**: [تقنية](/tag/تقنية) مبتكرة تقدم [تحسينات](/tag/تحسينات) ملحوظة في [سرعة](/tag/سرعة) إجراء الاستدعاءات.

خلال هذا العرض، سنقوم بقياس [أداء](/tag/أداء) كل [نموذج](/tag/نموذج) من حيث حجم التخزين، زمن الاستجابة، معدل الإنتاجية، ودرجة التعقيد ([Perplexity](/tag/perplexity)). تساعد هذه [المعايير](/tag/المعايير) في اختيار الاستراتيجية الأكثر ملاءمة لك حسب احتياج المشروع وتوجهاته.

انضم إلينا في [اكتشاف](/tag/اكتشاف) كيف يمكن لضغط هذه [النماذج](/tag/النماذج) أن يحدث فرقاً كبيراً في [كفاءة](/tag/كفاءة) [التطبيقات](/tag/التطبيقات) المستخدمة في الحياة اليومية، ويساهم في تعزيز [تجربة المستخدم](/tag/تجربة-المستخدم) بشكل عام!