في عالم تتسارع فيه الابتكارات التكنولوجية، يبرز السؤال: هل يمكننا الوثوق بحالات المستخدم المُستخلصة عبر الذكاء الاصطناعي؟ تعتبر نماذج اللغات الضخمة (Large Language Models) أداة قوية لتحليل سلوك المستخدمين في الأنظمة التفاعلية، ولكن ما مدى دقة هذه الأدوات في قياس حالات المستخدمين بشكل موثوق؟

تقدم دراسة جديدة إطارًا نفسيًا يختبر موثوقية قياسات الذكاء الاصطناعي لحالات المستخدمين. تعتمد هذه الدراسة على اختبارات عملية لتقييم استقرار وموثوقية القياسات عبر عدة نماذج لغوية كبيرة، بما في ذلك نماذج (GPT-4o audio) و(Gemini 2.0 Flash) و(Gemini 2.5 Flash).

استُخدمت عدّة مقاييس لتقييم كل من موثوقية النتائج الفردية والمجمعة، مما يسمح للباحثين بالتفريق بين المقاييس التي يمكن أن تكون مفيدة في التكيف الفوري والمقاييس التي تحتفظ بقيمتها فقط عند التحليل الإجمالي. النتائج أظهرت أن موثوقية القياسات ليست خاصية تلقائية، إذ أن عدم استقرار النتائج الفردية يمنع اعتبارها مؤشرات دقيقة لحالات المستخدمين في الأنظمة التفاعلية الفورية.

علاوة على ذلك، تكشف الدراسة أن المقاييس غير المستقرة يمكن أن تحتفظ بفائدة تحليلية في الدراسات اللاحقة، مما يساعد في تحديد القواعد التي تحكم التفاعلات وعلاقتها بمؤشرات تجربة المستخدم مثل الرضا والثقة والانخراط.

أحد الإسهامات الرئيسية لهذه الدراسة هو اقتراح إطار تقييم قابل للتكرار يمكن الباحثين من قياس تطبيق القياسات، مما يعزز تصميم أنظمة الذكاء الاصطناعي بشكل مسؤول. حيث يتطلب تفسير النتائج تحققًا صريحًا من الموثوقية ومراقبة أي انتهاكات على مر الزمن. هذه النتائج تشكل دعوة للتفكير بعمق في كيفية استخدامنا للذكاء الاصطناعي في تقييم حالات المستخدمين، مما يستدعي ضرورة التحقق المستمر من الموثوقية.