تشكل ظاهرة 'الهلاوس'، وهي الميل لإنتاج استجابات غير صحيحة وغير مدعومة بالحقائق من قبل نماذج اللغة الضخمة (Large Language Models)، أحد التحديات الكبرى في معالجة اللغة الطبيعية. يعتبر ذلك مشكلة خطيرة لم يتم التوصل بعد إلى حلول فعالة للتخفيف منها. في دراسة حديثة نُشرت على موقع arXiv، تم استقصاء مدى انتشار الهلاوس في مجال الأسئلة المتداولة في النصوص الطبية.
تتضمن الدراسة تجربتين رئيسيتين. في التجربة الأولى، تم تقييم نموذج 'LLaMA-70B-Instruct'، الذي يُعد من النماذج المفتوحة المصدر البارزة، في مجال الأسئلة الطبية باستخدام أسئلة مغلقة الصيغة (zero-shot prompts). وكشفت النتائج أن نسبة الهلاوس بلغت 19.7% من الإجابات، رغم أن 98.8% من ردود الأسئلة كانت مقبولة من ناحية المعقولية.
في التجربة الثانية، تم قياس مدى انتشار الهلاوس وتفضيلات الأطباء للإجابات المستندة على نماذج عدة. أظهرت النتائج أن النماذج ذات معدلات الهلاوس المنخفضة ترتبط بتقييمات أعلى للمنفعة ($\rho=-0.71$، $p=0.058$). كما أظهر الأطباء توافقًا عاليًا أثناء تقييم الإجابات، حيث بلغ معامل الكابا 0.92، وهذا يشير إلى أن الوضع الحالي لنماذج اللغة الضخمة يجعلها غير مؤهلة للاستخدام السريري غير المراقب.
تشير هذه النتائج إلى ضرورة وجود إشراف بشري واستمرارية تكاليفه، مما يضع السؤال على عاتق الجميع: كيف يمكننا تحسين دقة وموثوقية أدوات الذكاء الاصطناعي في القطاع الطبي؟
هوس الهلوسة: كيف تؤثر نماذج اللغة الضخمة على النصوص الطبية؟
تتناول الدراسة الجديدة مسألة 'الهلوسة' في نماذج اللغة الضخمة (Large Language Models) بخصوص النصوص الطبية، حيث تجد النتائج أن نسبة كبيرة من الإجابات تحتوي على معلومات خاطئة. يأتي هذا في ظل الحاجة الملحة لضمان دقة المعلومات في المجال الطبي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
