تشير دراسات جديدة إلى وجود مشكلات ملحوظة في تصنيف نماذج اللغات الضخمة (Large Language Models) مثل Gemma 3 4B/12B وQwen3-8B، حيث تعاني هذه النماذج من معدلات منخفضة في التصنيف السريري عند استخدام خيارات متعددة، بينما تسجل نتائج مختلفة عند التعامل مع نصوص حرة. تتساءل الأبحاث الحالية: هل يؤثر تنسيق الإخراج على “التمثيل السريري” (clinical representation) في النماذج أم أنها مجرد تغير في كيفية ربط التمثيل المحفوظ بالإجابات؟
باستخدام معايير تحليل المميزات المستندة إلى نموذج أكواد الشفرات الضعيفة (Sparse-Autoencoder)، تم الكشف عن أن الميزات الطبية تظهر بشكل متساوٍ في كل من التنسيق الهيكلي والنص الحر، ولكنها تنخفض عند نقطة اتخاذ القرار في خيارات متعددة. تحليل ثلاثي مستقل (يشمل تحقيقات على مستوى الصياغة اللغوية، والنمذجة الرياضية للقرار، وتوصيف الميزات العليا) يشير إلى أن ميزات الهيكل والتنسيق، وليس الميزات الطبية، هي ما تتحكم في فرضيات القرار.
ومن المثير للاهتمام، أنه تحت كل من المدخلات الهيكلية والطبيعية، يُظهر الأداء العكسي لعقوبة الخيارات المتعددة تقلبًا؛ إذ تم استبعاد تحيز المكان بخلط ترتيب الخيارات، ووجد أن الفجوة الرئيسية ناتجة عن تصنيف خاطئ — حيث يختار النموذج حرفًا مرتبطًا بشكل قريب من الإجابة الصحيحة بدلاً من الفشل في المعرفة. لذلك، تُظهر النتائج أن الفشل ينشأ من تنسيق الإخراج وليس من المعرفة الطبية نفسها.
فشل التصنيف السريري في نماذج اللغات الضخمة: تحليل جذري للأسباب الخفية!
توصلت الأبحاث إلى أن الأسباب وراء فشل نماذج اللغات الضخمة في التصنيف السريري لا تكمن في المعرفة الطبية، بل في تنسيق الإخراج. اكتشف المزيد في هذا المقال المثير!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
