في عالم الذكاء الاصطناعي، يعد فهم المشاعر أحد أبرز التحديات التي تواجه نماذج اللغات الضخمة (LLMs). فالقدرة على التفاعل بفعالية مع البشر تتطلب قدرة عاطفية عميقة، وهذا ما يفشل فيه العديد من النماذج الحالية. هنا يأتي دور أداة CAREBench، التي تعد الأولى من نوعها في تقييم هذه القدرة.

تستند CAREBench إلى نظرية التقييم (Appraisal Theory)، وتقدم إطاراً تقييمياً فريداً يتضمن سلاسل استدلال كاملة من وجهتي نظر الفرد الثالث والأول على أحداث سردية واقعية. تسلط هذه الأداة الضوء على عملية التقييم، وتقييم التقييمات، وتوصيف المشاعر المتعددة. من خلال إجراء تجارب منهجية على ست نماذج (LLMs)، تم تنظيم هذا البحث حول أربعة تساؤلات رئيسية.

يظهر البحث أن النماذج الأقوى قادرة على مجاراة أو تجاوز البشر في بعض المهام، ولكنها تعاني من صعوبات في استدلال التقييم والتعرف على المشاعر الإيجابية. كما تكشف النتائج عن تباين ملحوظ في الأداء عبر خطوات السلسلة وحساسية التدخلات المتعلقة بالاستدلال، مما يشير إلى أن النماذج الحالية لم تتغلغل بعد في الآليات اللازمة لالتقاط الفروق الفردية العاطفية لدى البشر.

تشير هذه النتائج إلى أن المقاييس المستخدمة حاليًا في توقع المشاعر قد تفرط في تقدير الفهم الحقيقي للمشاعر في هذه النماذج، مما يجعل CAREBench أساسًا لتقييم تشخيصي أكثر معلوماتية لقدرات الانفعالات العقلية في نماذج الذكاء الاصطناعي. هل أنتم مستعدون لاستكشاف عوالم جديدة من الذكاء الاصطناعي وفهم المشاعر؟ شاركونا آرائكم في التعليقات!