في السنوات الأخيرة، قدم دمج التعلم الآلي متعدد الوسائط (Multimodal Machine Learning) إمكانية تحويلية لمراقبة الرفاه النفسي. ومع ذلك، ومع التقدم السريع لنماذج الرؤية واللغة (Vision-Language Models) في البيئات السريرية، برزت مخاوف بشأن افتقارها إلى الشفافية واحتمالية وجود انحيازات. على الرغم من استكشاف الأبحاث السابقة لتقاطع العدالة والذكاء الاصطناعي القابل للتفسير (Explainable AI)، إلا أن تطبيق ذلك على نماذج الرؤية واللغة لتقييم الرفاه النفسي والتنبؤ بالاكتئاب لا يزال مجالاً قيد الاستكشاف.

تقوم هذه الدراسة بتحليل أداء نماذج الرؤية واللغة عبر مجموعتي بيانات مختلفة، أحدهما مختبري (AFAR-BSFT) والآخر طبيعي (E-DAIC)، مع التركيز على موثوقية التشخيص والعدالة الديموغرافية. أظهرت النتائج تفاوتًا كبيرًا في الأداء بين البيئات والهندسات المختلفة؛ حيث حقق نموذج Phi3.5-Vision دقة تبلغ 80.4% على مجموعة E-DAIC، بينما ن struggled Qwen2-VL عند 33.9%. كما أبدت النماذج ميلًا زائدًا لتنبؤ الاكتئاب على مجموعة AFAR-BSFT.

على الرغم من وجود انحياز عبر كل من النماذج، أظهر Qwen2-VL تباينات أعلى بناءً على الجنس، بينما أظهر Phi-3.5-Vision انحيازًا أكبر بناءً على العرق. قدم إطار التدخلات القائمة على الذكاء الاصطناعي القابل للتفسير نتائج مختلطة؛ حيث حقق التحفيز للعدالة فرصًا متساوية ممتازة لـ Qwen2-VL بتكلفة دقة شديدة على مجموعة E-DAIC. في مجموعة AFAR-BSFT، حسنت التدخلات القائمة على القابلية للتفسير التناسق الإجرائي لكنها لم تضمن عدالة النتائج، وأحيانا زادت من الانحياز العنصري.

تسلط هذه النتائج الضوء على الفجوة المستمرة بين الشفافية الإجرائية والنتائج العادلة. نقوم بتحليل هذه النتائج ونقدم توصيات ملموسة لمعالجتها، مشددين على أن التدخلات المستقبلية في مجال العدالة يجب أن تعزز دقة التنبؤ، والمساواة الديموغرافية، والتعميم عبر المجالات.