في عالم الذكاء الاصطناعي المتطور، تبرز نماذج اللغات الضخمة (Large Language Models) كأحد الأدوات الأكثر تأثيراً في حياتنا اليومية. هل تساءلت يومًا عن مدى دقة الاستبيانات النفسية البشرية في توقع سلوك هذه النماذج؟ دراسة جديدة تسلط الضوء على هذا الموضوع الهام.

أجرى الباحثون دراسة تحليلية تتعلق بتقييم ثمانية نماذج لغوية مفتوحة المصدر، حيث قاموا بمقارنة ملفات الشخصية والقيم المستخلصة من استبيانات معترف بها (مثل PVQ-40 و BFI-44) مع استجابات هذه النماذج لمجموعة من الاستفسارات اليومية.

والنتيجة الصادمة كانت أن الملفات المستندة إلى الاستبيانات والنماذج السلوكية تختلف بشكل ملحوظ، مما يثير تساؤلات حول اعتمادية هذه الاستبيانات.

تظهر الدراسة أن بعض عوامل الاستبيانات النفسية تستند إلى مفردات تسمح للنماذج بالتعرف على الأنماط الاجتماعية المرجوة، مما يجعلها تتجاوب بصورة أكثر توافقًا. وبالمقابل، الاستفسارات الواقعية من المستخدمين تفتقر إلى هذه الدلالات، مما يجعل سلوك النماذج يقلق بفارق واضح.

علاوة على ذلك، فإن الاستجابة للأوامر الشخصية الديموغرافية تغير استجابات النماذج للاختبارات النفسية بطرق تشبه الأنماط البشرية، بينما لا تظهر مثل هذه التغيرات في الاستجابات الواقعية، مما يبرز الفجوة بين السلوك المتوقع والسلوك الفعلي.

تشير نتائج هذه الدراسة إلى أن استبيانات النفس البشرية قد لا تكون أدوات موثوقة لتوقع سلوك نماذج اللغات الضخمة، مما يفتح المجال لتطوير طرق تقييم جديدة تعتمد على التوليد (Generation-based profiling) كأداة أكثر دقة في قياس هذه السلوكيات.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.