في عالم تكنولوجيا الذكاء الاصطناعي، تبرز نماذج اللغة الضخمة (Large Language Models - LLMs) كأدوات محورية في مجالات متعددة، بما في ذلك العلوم الاجتماعية. تعتمد هذه النماذج بشكل متزايد على تحويل النصوص غير المنظمة إلى متغيرات تستخدم في التصاميم التجريبية القياسية. ولكن، هل تعمل هذه النماذج بكفاءة؟

تشير دراسة حديثة إلى أن فعالية قياسات العلوم الاجتماعية باستخدام LLMs لا تتطلب فقط دقة عالية، بل تحتاج أيضًا إلى موثوقية في المعايرة (Calibration) تعكس بشكل صحيح احتمالية صحة كل قياس. يتناول هذا البحث مسألة عدم المعايرة (Miscalibration) في قياسات العلوم الاجتماعية المعتمدة على LLMs.

تبدأ الدراسة بدراسة حالة عن لجنة السوق الفيدرالية المفتوحة (FOMC)، حيث أظهرت أن الفلترة المستندة إلى الثقة (Confidence-based Filtering) يمكن أن تؤثر على تقديرات الانحدار (Regression Estimates) عندما تكون ثقة LLM غير صحيحة. وقد أجريت مراجعة دقيقة للمعايرة عبر 14 متغيرًا اجتماعيًا، بما في ذلك نماذج خاصة مثل GPT-5-mini وDeepSeek-V3.2، ونماذج مفتوحة المصدر.

تبين بعض النتائج المثيرة أن الثقة المعلنة تكون عادة غير متوافقة مع درجة الصواب. كحل بسيط، يقترح الباحثون خط أنابيب لتقطير العلامات (Soft Label Distillation) لضبط Bert مع LLM. تعتمد هذه الطريقة على تحويل درجة LLM وثقتها المعلنة إلى توزيع مستهدف ناعم، ثم يتم تدريب مصنف تمييزي أصغر على هذه الأهداف.

أظهرت النتائج أن هذه الإستراتيجية تمكنت من تقليل درجة عدم المعايرة (Expected Calibration Error - ECE) بمعدل 43.2% وBrier بمعدل 34.0%. وهذا يدل على أهمية اعتبار المعايرة جزءًا لا يتجزأ من صلاحية القياس، وليس مجرد مسألة تكميلية.

هذه التطورات تفتح آفاقًا جديدة لتحسين دقة نماذج الذكاء الاصطناعي في الأبحاث الاجتماعية، مما يجعلها أكثر موثوقية واستخدامًا في الأبحاث المستقبلية. هل برأيك ستكون هذه الأساليب الجديدة كافية للتحسين؟ شاركونا آراءكم في التعليقات!