في عالم الذكاء الاصطناعي، تعد نماذج اللغة الكبيرة (Large Language Models) من أبرز الابتكارات التكنولوجية التي تسهم في تحسين مجالات متعددة، بما في ذلك الرعاية الصحية. ولكن، ما يبدو كميزة، قد يتحول أحياناً إلى عائق؛ إذ تكشف الأبحاث الجديدة أن بعض هذه النماذج تعاني من ظاهرة تُعرف بإغلاق التوصل المبكر (Premature Closure).

يُعرَّف إغلاق التوصل المبكر بأنه التزام بنهاية أو استنتاج قبل التوفر على المعلومات الكافية، مما يمكن أن يؤدي إلى أخطاء في التشخيص. وقد أظهرت دراسة جديدة نشرت على موقع arXiv دور نموذجين متميزين في هذا الجوانب من الأداء.

لتقييم هذه الظاهرة، قام الباحثون بدراسة خمسة نماذج لغوية في مهام طبية سواء كانت منظمة أو مفتوحة. حيث أُجريت التجارب على استبيانات طبية استندت إلى مجموعتين، MedQA وAfriMed-QA. وأظهرت النتائج أن النماذج كانت تختار إجابة حتى في الحالات التي أُزيلت فيها الخيارات الصحيحة، حيث تراوحت معدلات الأخطاء الأساسية بين 55-81% و53-82%.

كما عُرض على النماذج 861 سؤالًا من HealthBench، وقدمت إجابات غير مناسبة في حوالي 30% من الحالات بالإضافة إلى 78% من 191 سؤالاً معقداً أعده أطباء.

لمواجهة هذه المشكلة، قُدمت تحفيزات موجهة تهدف إلى تعزيز السلامة، مما أدى إلى تقليل إغلاق التوصل المبكر، وكذلك أظهر الباحثون أن بعض النماذج بقيت تعاني من تقصير في الأداء، مما يستدعي ضرورة التأكد ما إذا كانت النماذج الطبية تعرف متى ينبغي عدم تقديم إجابات.

ظل النقاش محتدماً حول كيفية ملاءمة نماذج اللغة الكبيرة للاستخدام في الحقل الطبي، وما إذا كانت يمكنها تقديم استجابات دقيقة في زمن يتطلب اتخاذ قرارات حاسمة. هذا يدعونا للتفكير: كيف يمكن أن تتطور هذه النماذج لتحسين موثوقيتها في المجالات الحرجة؟