في عالم الذكاء الاصطناعي، تُستخدم نماذج اللغة الكبيرة (Large Language Models) بشكل متزايد للقيام بمهام معقدة، ولكنها تتطلب عادة قدرًا كبيرًا من الموارد. لذا، يتم ضغط هذه النماذج عبر تقنيات الضغط بعد التدريب (Post-Training Quantization) لتقليل تكلفة الاستدلال والحفاظ على الذاكرة، ولكن أثر هذه الضغوطات على جودة النماذج لا يزال غير مفهوم جيدًا.

تشير دراسة حديثة أجراها فريق من الباحثين إلى أن تقنيات الضغط قد تؤدي إلى ظهور انحيازات جديدة وغير مرئية عند استخدام دقة منخفضة (Low Precision)، حيث اختبر الباحثون ثلاثة نماذج مُعدلة (Qwen2.5-7B، Mistral-7B، Phi-3.5-mini) عبر خمس مستويات دقة مختلفة (من BF16 حتى 3 بت) وعلى مجموعة بيانات تحتوي على 12,148 عنصر تختبر انحيازات اللغة، مما أسفر عن نحو 911,100 سجل استدلال.

النتائج كانت مدهشة؛ حيث أظهرت أن ضغط النموذج إلى دقة 3 بت يمكن أن يؤدي إلى زيادة تتراوح بين 6% و21% في العناصر التي كانت خالية من الانحيازات سابقًا، مما يعكس نمطًا واضحًا من الاستجابة عند زيادة الضغط، بينما تراجعت رغبة النماذج في اختيار إجابات "غير معروفة" بنسبة 17.4%. ما هو أكثر إثارة للاهتمام هو أن التحليلات التقليدية لم تُظهر أي تغييرات كبيرة، حيث زادت درجة التعقيد (Perplexity) بأقل من 0.5% في دقة 8 بت وأقل من 3% في 4 بت على جميع النماذج.

هذا يدل على أن القياسات المجمعة لا تستطيع التقاط الانزلاق الحرج نحو عدم العدالة، مما يعزز الحاجة إلى تطوير بروتوكولات ضغط واعية للجودة والتي تختبر بشكل صريح ظهور الانحيازات قبل نشر النماذج في بيئات حقيقية. ماذا يعني ذلك للضرورات الأخلاقية في الذكاء الاصطناعي؟ الأمر يتطلب منا التفكير بعمق.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.