تعتبر تقنيات ضغط نماذج اللغة الكبيرة (Large Language Models) مثل التكميم (Quantization) والإزالة (Pruning) من الأدوات الأساسية لتقليل التكاليف عند نشر هذه النماذج. ومع ذلك، فإن الحفاظ على دقة النموذج عند استخدم هذه التقنيات ليس هو المعيار الوحيد للتقييم. في التطبيقات الحساسة، يتعين أن نسأل: هل تستطيع هذه النماذج قياس عدم اليقين الخاص بها بدقة بعد عملية الضغط؟

لإلقاء الضوء على هذا السؤال، قامت دراسة جديدة بمراجعة 12 نموذجًا من نماذج اللغة الكبيرة تحت إعدادات ضغط مختلفة، مستخدمةً أسلوب التنبؤ المنسجم (Conformal Prediction) لتقديم مقياس صارم وغير منصوص به لعدم اليقين. وكشفت التجارب نقاطًا لافتة للنظر:

- **المبدأ الأول**: الضغط كثيرًا ما يفصل بين الدقة وعدم اليقين.
- **المبدأ الثاني**: النماذج الأكبر يمكنها استيعاب عدم اليقين الناتج عن الضغط بشكل أفضل بكثير من النماذج الأصغر.
- **المبدأ الثالث**: زيادة عدم اليقين غالبًا ما تأتي بشكل حدي وليس تدريجي.

تشير هذه النتائج إلى أن تقييم الدقة فقط غير كافٍ لتحديد جاهزية النماذج المضغوطة للتطبيق، مما يبرز أهمية إدراج تقييم عدم اليقين كجزء أساسي من عمليات ضغط النماذج. هل تتفقون أن هذه المعايير الجديدة ستغير طريقة تقييم نماذج الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!