فشل التصنيف السريري في نماذج اللغات الضخمة: تحليل جذري للأسباب الخفية!

Q: ما هو موضوع مقال "فشل التصنيف السريري في نماذج اللغات الضخمة: تحليل جذري للأسباب الخفية!"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "فشل التصنيف السريري في نماذج اللغات الضخمة: تحليل جذري للأسباب الخفية!" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

تشير دراسات جديدة إلى وجود مشكلات ملحوظة في تصنيف نماذج اللغات الضخمة (Large Language Models) مثل Gemma 3 4B/12B وQwen3-8B، حيث تعاني هذه النماذج من معدلات منخفضة في التصنيف السريري عند استخدام خيارات متعددة، بينما تسجل نتائج مختلفة عند التعامل مع نصوص حرة. تتساءل الأبحاث الحالية: هل يؤثر تنسيق الإخراج على “التمثيل السريري” (clinical representation) في النماذج أم أنها مجرد تغير في كيفية ربط التمثيل المحفوظ بالإجابات؟

باستخدام معايير تحليل المميزات المستندة إلى نموذج أكواد الشفرات الضعيفة (Sparse-Autoencoder)، تم الكشف عن أن الميزات الطبية تظهر بشكل متساوٍ في كل من التنسيق الهيكلي والنص الحر، ولكنها تنخفض عند نقطة اتخاذ القرار في خيارات متعددة. تحليل ثلاثي مستقل (يشمل تحقيقات على مستوى الصياغة اللغوية، والنمذجة الرياضية للقرار، وتوصيف الميزات العليا) يشير إلى أن ميزات الهيكل والتنسيق، وليس الميزات الطبية، هي ما تتحكم في فرضيات القرار.

ومن المثير للاهتمام، أنه تحت كل من المدخلات الهيكلية والطبيعية، يُظهر الأداء العكسي لعقوبة الخيارات المتعددة تقلبًا؛ إذ تم استبعاد تحيز المكان بخلط ترتيب الخيارات، ووجد أن الفجوة الرئيسية ناتجة عن تصنيف خاطئ — حيث يختار النموذج حرفًا مرتبطًا بشكل قريب من الإجابة الصحيحة بدلاً من الفشل في المعرفة. لذلك، تُظهر النتائج أن الفشل ينشأ من تنسيق الإخراج وليس من المعرفة الطبية نفسها.

فشل التصنيف السريري في نماذج اللغات الضخمة: تحليل جذري للأسباب الخفية!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة ذكاء اصطناعي: المساعد الجديد من أدوبي يمكنه إنجاز المهام عبر جميع تطبيقاتك الإبداعية!

ثورة جديدة في عالم الحوسبة: استثمار ضخم ينذر بإطلاق عملاق الحوسبة التالي

هل تتجه أنظار المستثمرين نحو Anthropic بعد موجة الدولار؟