هوس الهلوسة: كيف تؤثر نماذج اللغة الضخمة على النصوص الطبية؟

تشكل ظاهرة 'الهلاوس'، وهي الميل لإنتاج استجابات غير صحيحة وغير مدعومة بالحقائق من قبل نماذج اللغة الضخمة (Large Language Models)، أحد التحديات الكبرى في معالجة اللغة الطبيعية. يعتبر ذلك مشكلة خطيرة لم يتم التوصل بعد إلى حلول فعالة للتخفيف منها. في دراسة حديثة نُشرت على موقع arXiv، تم استقصاء مدى انتشار الهلاوس في مجال الأسئلة المتداولة في النصوص الطبية.

تتضمن الدراسة تجربتين رئيسيتين. في التجربة الأولى، تم تقييم نموذج 'LLaMA-70B-Instruct'، الذي يُعد من النماذج المفتوحة المصدر البارزة، في مجال الأسئلة الطبية باستخدام أسئلة مغلقة الصيغة (zero-shot prompts). وكشفت النتائج أن نسبة الهلاوس بلغت 19.7% من الإجابات، رغم أن 98.8% من ردود الأسئلة كانت مقبولة من ناحية المعقولية.

في التجربة الثانية، تم قياس مدى انتشار الهلاوس وتفضيلات الأطباء للإجابات المستندة على نماذج عدة. أظهرت النتائج أن النماذج ذات معدلات الهلاوس المنخفضة ترتبط بتقييمات أعلى للمنفعة ($\rho=-0.71$، $p=0.058$). كما أظهر الأطباء توافقًا عاليًا أثناء تقييم الإجابات، حيث بلغ معامل الكابا 0.92، وهذا يشير إلى أن الوضع الحالي لنماذج اللغة الضخمة يجعلها غير مؤهلة للاستخدام السريري غير المراقب.

تشير هذه النتائج إلى ضرورة وجود إشراف بشري واستمرارية تكاليفه، مما يضع السؤال على عاتق الجميع: كيف يمكننا تحسين دقة وموثوقية أدوات الذكاء الاصطناعي في القطاع الطبي؟

هوس الهلوسة: كيف تؤثر نماذج اللغة الضخمة على النصوص الطبية؟

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة الذكاء الاصطناعي: OpenAI تطلق إضافة كروم جديدة لوكيل Codex تسهل التفاعل مع أشهر المنصات!

دفاعات إلكترونية مبتكرة: نموذج CyberSecQwen-4B وجعل الأمن الإلكتروني محليًا!

ثورة جديدة في نماذج اللغة الصغيرة: تحسين توليد Bash باعتماد تقنيات القواعد