في عصر تكنولوجيا الذكاء الاصطناعي، تزداد أهمية نماذج اللغة الكبيرة المتعددة الوسائط (MLLMs) كأدوات تقييم تلقائية تُعرف بـ MLLM-as-a-Judge. لكن، على الرغم من تطورها الملحوظ، لا يزال هناك العديد من نقاط الضعف المتعلقة بالتحيزات التي قد تؤثر على دقة تقييماتها.

تظهر البحوث الجديدة، التي تم نشرها في arXiv، أن العديد من تلك النماذج لا تدمج التلميحات الرئيسية من النصوص أو الصور بشكلٍ موثوق، مما يؤدي إلى تقييمات غير دقيقة، خاصة عندما تكون الأدلة مفقودة أو غير متطابقة. بل وتفتقر تلك النماذج إلى الاستقرار عند مواجهة تغييرات غير ذات صلة.

استجابةً لهذه التحديات، تم تقديم معيار MM-JudgeBias الذي يهدف إلى تعريف "التعصب التركيبي" (Compositional Bias) في أنظمة MLLM-as-a-Judge. ويشمل هذا المعيار استخدام تغييرات محكمة عبر الاستعلامات، والصور، والردود، مع تقييم سلوك النموذج باستخدام مقاييس تكمل بعضها البعض؛ أولاً حساسية الانحراف التمييزي (Bias-Deviation) وثانياً استقرار الانحراف التمييزي (Bias-Conformity).

يحتوي مجموعة البيانات، التي تتجاوز 1800 عينة متعددة الوسائط تم تنقيحها بعناية واختيارها من 29 معياراً رئيسياً، على تشخيص دقيق لتسعة أنواع من التحيزات عبر مهام ومجالات متنوعة. وتجارب أجريت على 26 نموذجاً متقدماً من بين MLLMs توضح إهمال النماذج للأنماط وعدم التوازن في التقييم، مما يبرز الحاجة الملحة لمقويمين أكثر موثوقية.

إذا كنت مهتماً بعالم الذكاء الاصطناعي وتبحث عن فهم أعمق لمشكلات التحيز في نماذج MLLM، فإن MM-JudgeBias يمثل خطوة مهمة نحو تحسين موثوقية هذه الأنظمة.