في أعماق عالم الذكاء الاصطناعي، حيث تتلاقى الرؤية واللغة، تمثل نماذج اللغة المرئية (Vision-Language Models - VLMs) أداة ثورية في مجالات متعددة، لكن هناك عائقاً كبيراً يُعرف بالهلوسة، والذي يمنع استخدام هذه النماذج بشكل آمن في الأوساط السريرية. حتى الآن، يُعد نقص الأبحاث المتعلقة بكيفية الكشف عن الهلوسة في التطبيقات الطبية، مثل التنظير الهضمي، موضوعاً مهماً يتطلب انتباهاً خاصاً.
في دراسة حديثة، تم تنفيذ تقييمٍ شامل لتسعة أساليب لرصد الهلوسة في نماذج VLMs مخصصة للزراعة الهضمية، من خلال مجموعة بيانات Gut-VLM التي تتضمن 4,392 زوجاً من أسئلة الإجابة. تم معالجة هذه الاختبارات عبر خمسة نماذج مختلفة، منها MedGemma-4B و LLaVA-Med-7B، باستخدام أساليب متعددة من بينها:
- طرق الصندوق الأسود (Black-box Methods) مثل RadFlag و SelfCheckGPT-NLI.
- طرق الصندوق الرمادي (Gray-box Methods) مثل AvgProb و MaxEnt.
- طريقة الصندوق الأبيض (White-box Method) ReXTrust.
تظهر نتائج الدراسة أن الرؤية الواضحة التي توفرها طريقة ReXTrust أدت إلى تحقيق أعلى درجات AUC (Area Under Curve) تتجاوز 93.0 على نموذج MedGemma-4B، مما يبرز قوة الوصول إلى الحالة المخفية وميزة الأداء المتفوقة.
ومع ذلك، لم تقتصر النتائج على التأكيد على قوة هذه الطرق فحسب، بل تم أيضاً الكشف عن نمط فشل يُعرف بالمركب الواثق (Confident Confabulation)، والذي يعني أن النماذج قد تخلط بين المعلومات بشكل متسق من العينة إلى العينة. تعد هذه النتائج خطوة مهمة نحو تحسين الأمان في استخدام نماذج VLMs في البيئات السريرية، مما يمثل تحولاً في كيفية تعاملنا مع التشخيص الطبي.
في الختام، تقدم هذه الدراسة أملاً جديداً في تحسين نتائج التشخيص مما يسمح للأطباء بإجراء تشخيصات أكثر دقة وأماناً في مجال الزراعة الهضمية. فما هي انطباعاتكم حول نتائج هذه الدراسة؟ هل تجدون أن هذه النتائج ستحدث فرقاً في التطبيقات السريرية؟ شاركونا أفكاركم في التعليقات.
الكشف عن الهلوسة في نماذج اللغة المرئية: معيار جديد لتقييم أدوات التشخيص في الزراعة الهضمية
مقال يسلط الضوء على دراسة جديدة تقيم تسعة طرق للكشف عن الهلوسة في نماذج اللغة المرئية المخصصة للتشخيص في الزراعة الهضمية. النتائج تشير إلى أن طريقة ReXTrust تتفوق بشكل ملحوظ على الطرق الأخرى، مما يسهم في تحسين الأمن في الاستخدامات السريرية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
