في عالم الطب الحديث، يعتمد تصميم تقويم النماذج اللغوية الكبيرة (LLMs) على معايير تقييم مبسطة نادراً ما تعكس التعقيدات والغموض الذي يحيط بالأسئلة الطبية الواقعية. هنا يأتي دور إطار CLEAR، الذي يتيح لنا تقييم كيفية تأثير تقديم البيانات، والغموض، وعدم اليقين على التفكير المنطقي للنماذج اللغوية عند مواجهتها لمعايير طبية معينة.

تقدم الدراسة الجديدة التي تم عرضها في arXiv 2605.01011v1 مجموعة من التحليلات المثيرة، حيث يقوم CLEAR بتحليل تأثير ثلاثة جوانب رئيسية: (1) زيادة عدد الخيارات الإجابة المحتملة، (2) وجود خيار الحقيقة الثابتة أو خيار الاعتذار، (3) الإطار الدلالي لخيارات الإجابة.

تظهر النتائج التي تم الوصول إليها من خلال تطبيق CLEAR على ثلاثة معايير طبية تقيم 17 نموذجاً لغوياً كبيراً، أن هذه الطرق التقليدية تختبر قدرة النماذج بشكل غير دقيق. إذ أن زيادة عدد الخيارات المحتملة تؤدي إلى تدهور قدرة النموذج على التعرف على الإجابة الصحيحة والامتناع عن الخيارات الخاطئة.

علاوة على ذلك، تتضاعف هذه المشكلة عندما يتحول الإطار من رفض حازم مثل "لا شيء مما سبق" إلى اعتراف بالشك مثل "لا أعلم" (IDK)، حيث يؤدي تضمين IDK في خيارات الإجابة إلى زيادة الاختيارات الخاطئة.

أخيراً، نجسّد الفجوة في الأداء بين تحديد الإجابة الصحيحة والامتناع عن الإجابات الخاطئة كمشكلة التواضع، والتي تزداد سوءًا مع زيادة حجم النموذج. تكشف هذه النتائج عن محدوديات المعايير الطبية الحالية وتؤكد أن توسيع نطاق النماذج لا يحل بمفرده مشاكل موثوقية LLMs.