في عالم الذكاء الاصطناعي وخصوصاً مع تزايد الاعتماد على نماذج اللغة الكبيرة (SLMs) لتقديم تقييمات نفسية، ظهرت تساؤلات حول دقة النتائج التي تقدمها هذه النماذج. دراسة حديثة تناولت هذا الموضوع ووجدت أن المخرجات لا تعكس دائماً التفكير المنطقي، بل غالباً ما تتأثر بعوامل خارجية تتعلق بالشكل والأسلوب الذي تم به طرح الأسئلة.

من خلال تقييم 13 نموذجاً مفتوح الوزن (من 0.6 مليار إلى 14 مليار معلمة)، استخدم الباحثون إطار عمل جديد يسمح بتفكيك الإشارات الدلالية عن العيوب الكامنة في الأسئلة. هذا التحليل كشف أن التغيرات الناتجة عن هذه العيوب غالباً ما تفوق الإشارات الدلالية، مما يعني أن النماذج تميل أكثر إلى مطابقة التعليمات بدلاً من التعبير عن سمات نفسية حقيقية.

على الرغم من أن هذه النتائج تقلل من فائدة نماذج اللغة الكبيرة في القياسات النفسية، إلا أن إطار العمل الذي تم تطويره يعد أداة تشخيصية قيمة. يمكن للباحثين استخدامه لتحديد العيوب التي تؤثر على النتائج وعزل الفهم الدلالي، مما يساهم في تعزيز جودة الأبحاث المستقبلية في هذا المجال.

بذلك، فإن هذه الدراسة تدعو المجتمعات الباحثة إلى إعادة تقييم كيفية استخدام نماذج اللغة الكبيرة في الأبحاث النفسية، مما يفتح الأبواب لتحسينات كبيرة في هذا المجال المتطور.