تتعقد أساليب التقييم في الذكاء الاصطناعي مع ظهور نماذج لغوية ضخمة متعددة الوسائط (Multimodal Large Language Models)، لكن أحد التحديات الرئيسية التي تواجه هذه النماذج هو انحياز الحكم الإدراكي (Perceptual Judgment Bias). هذا الانحياز يظهر عندما تتضارب الأدلة البصرية مع النصوص، حيث تميل هذه النماذج إلى مكافأة السرديات القابلة للتصديق بدلاً من الإجابات الصحيحة بصريًا.

في دراسة حديثة، تم تسليط الضوء على هذا الظاهرة وتقديم تحليل منهجي لها، حيث تم تحديد الأسباب الجذرية لهذه المشكلة. لوحظ أن النماذج متعددة الوسائط تستند بشكل مفرط على النص بدلاً من إدراكها البصري، مما يؤدي إلى تقييمات غير متسقة وغير قابلة للتحقق.

لعلاج هذا الانحياز، تم تقديم مجموعة بيانات جديدة تُعرف بمجموعة بيانات الأحكام المتأثرة إدراكيًا (Perceptually Perturbed Judgment Dataset). هذه المجموعة تشمل ردود فعل معدلة بشكل دقيق تركز على تصحيح الأخطاء الإدراكية وتتيح الإشراف القابل للتحقق. بالإضافة إلى ذلك، تم تطوير إطار تدريبي موحد يجمع بين مكافأة مُعتمدة على GRPO وهدف ترتيب دفعات (Batch-Ranking Objective) لتحقيق ترتيب عالمي متماسك دون الحاجة إلى تسميات زوجية صريحة.

تُظهر التجارب التي أجريت على مجموعة متنوعة من نماذج LLM-as-a-Judge أن هذا النهج يؤثر بشكل إيجابي على دقة الإدراك، وتماسك الترتيب، والتوافق مع التقييمات البشرية، مما يفتح آفاقًا جديدة لتدريب نماذج الحكام من خلال توجيه بصري واضح وقابل للتفسير، ومتانة في مواجهة الصراعات المرتبطة بالتفكير البصري. هذا التطور يعد خطوة مهمة نحو تحسين موثوقية الذكاء الاصطناعي في مجالات متعددة تتطلب تقييمات دقيقة.