في عالم الذكاء الاصطناعي، تتوسع الاستخدامات لنماذج اللغات الضخمة (Large Language Models) لتشمل مجالات جديدة كدعم المشاعر في الأوقات الحرجة. إلا أن قدرات هذه الأنظمة عبر اللغات لا تزال بحاجة إلى المزيد من الاستكشاف.

تقدم لنا الدراسة الجديدة، التي أُطلق عليها اسم SPLIT، معياراً مميزاً يتكون من 500 سؤال مصمم لتقييم استجابات هذه النماذج في سياقات عاطفية صعبة مثل التوتر، والذعر، والشعور بالوحدة، وغيرها.

من خلال اختبار ثلاث نماذج لغوية متنوعة تقنياً، تشمل تقييماً لثلاثة محاور: دقة التعاطف، والطبيعية اللغوية، والتأسيس الثقافي، تسلط الدراسة الضوء على الفجوة بين الأداء باللغتين الإنجليزية والأوكرانية.

وكشفت النتائج أن نماذج مثل Gemini-2.5-Flash و LLaMA-3.3-70B-Instruct تعاني من تدهور في الأداء عند الانتقال إلى اللغة الأوكرانية، بينما حافظ نموذج DeepSeek-V3 على استقراره. كما أظهرت الدراسة تفاهماً ضعيفاً بين التقييمات البشرية والذكاء الاصطناعي فيما يخص التعاطف والطبيعة، مع اختلاف واضح في التأسيس الثقافي.

تعتبر نتائج هذه الدراسة خطوة مهمة نحو تطوير معايير أكثر ملاءمة ثقافياً، مما يشجع على تعزيز التقييم القائم على الإنسان في المستقبل.