في عالم الذكاء الاصطناعي ونماذج اللغات الضخمة (LLMs)، تعد القدرة على توقع سلوك النماذج من الأمور الحيوية، لا سيما عند نشرها في تطبيقات حيوية. ولكن السؤال الجوهري: هل يمكننا الاعتماد على التقارير الذاتية (Self-Reports) في توقع سلوك هذه النماذج؟
قد كشفت الأبحاث الأخيرة عن وجود تباين ملموس بين التقارير الذاتية وسلوك نماذج اللغات الضخمة، حيث اعتمدت هذه الدراسات على خصائص شخصية عامة (Big 5) التي تُظهر ارتباطاً ضعيفاً بالسلوكيات، حتى بين البشر. لكن الأبحاث لم تضع في اعتبارها العوامل التي تساهم في فقدان التناسق، مثل عزلة الجلسات الحوارية وضغط السياق.
وفي سعي لتجاوز هذه القيود، اعتمد الباحثون على نظرية السلوك المخطط (Theory of Planned Behavior - TPB) التي تقيس النية المستهدفة نحو سلوك معين وتحقق دقة أكبر في توقع سلوك البشر مقارنةً بالسمات العامة. أجريت تجارب متنوعة عبر أربعة مهام سلوكية و11 نموذجاً رائداً للغات الضخمة، وتم استخدام سياقات وهويات مختلفة خلال هذه التجارب.
اكتشف الباحثون أن التناسق بين التقارير الذاتية والسلوك موجود ولكنه انتقائي؛ فعند الحديث ضمن محادثة مشتركة، كانت نظرية السلوك المخطط تحقّق مستوى من التناسق مثل البشر، بينما لم تكن الخصائص العامة كذلك. وعندما تمت المقارنة بين محادثات منفصلة، تبين أن التناسق يظل متواجداً للسلوكيات المعتمدة خارج السياق الفوري، مثل التحيز الضمني المتشكل من التدريب، ويفقد قوته عند تركيز السلوك بشكل كبير على السياق، كما هو الحال مع التملُّق.
تظهر النتائج أن أدوات تقييم الشخصية العامة مثل (Big 5) قد لا تكون الأفضل لفهم سلوك النماذج في بيئاتها. لذا، تُؤكد الحاجة إلى أدوات تقييم أكثر دقة تستند إلى سلوكيات ومهام معينة، وينبغي تقييم هذه الأدوات عبر مهام وسياقات مختلفة لتحقيق فهمٍ أعمق.
إعادة التفكير في تقييمات النفسية لنماذج اللغات الضخمة: متى ولماذا تتنبأ التقارير الذاتية بالسلوك؟
تشكّل تقارير السلوك الذاتي تحدياً في معالجة سلوك نماذج اللغات الضخمة (LLMs). تكشف الدراسات الجديدة عن تباين كبير بين التقارير الذاتية والسلوك، مما يستدعي استخدام أدوات تقييم أكثر دقة لفهم سلوك هذه النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
