في عصر الذكاء الاصطناعي، تعد نماذج اللغة الضخمة (Large Language Models) ذات أهمية متزايدة في تحليل البيانات السريرية. لكن السؤال الذي يطرح نفسه: هل تستطيع هذه النماذج التعرف على حدود معرفتها في مثل هذه المهام؟ دراسة جديدة تناولت هذا الموضوع من خلال تحليل الانحراف بين النماذج، وهدفها هو تقليل عدم اليقين المعرفي في المهام المنطقية.
تمت المقارنة بين نموذج Qwen 2.5 7B ونموذج XGBoost في مهمة تنبؤية، وأسفرت النتائج عن اكتشافات مثيرة.
1. **فجوة معرفية في الثقة اللفظية**: أظهرت النتائج أن ثقة النموذج اللفظية ليست ذات معنى، حيث كانت تتراوح بين 0.856 و0.937 بغض النظر عن دقة التنبؤ، مما يعكس أسلوب تقديم البيانات بدلاً من جودتها الفعلية.
2. **تأثير الصعوبة العكسي**: عندما كان نموذج XGBoost متميزًا بدقة 99%، انخفضت دقة نموذج LLM إلى 64.8%. لكن، عند وجود عدم يقين معتدل، تمكن النموذج من تحقيق دقة متشابهة مع XGBoost.
3. **التدخلات المعززة**: توضح الدراسة أن أمثلة القليل من المحاولات (few-shot examples) وفوائد الميزات المستخلصة عبر SHAP تعتبر تدخلات متكاملة، حيث قللت من درجات الخلاف في التقدير (ADS) من 1.54 إلى 0.38.
4. **تحسين موثوقية النموذج**: تم اقتراح استخدام مُعَيِّر بين النماذج لتحديد موثوقية نماذج اللغة الضخمة، مما يقلل من خطأ المعايرة المتوقع بطريقة فعالة، مستبدلاً الثقة اللفظية غير المجدية بتقديرات موثوقية مدروسة.
تسلط هذه النتائج الضوء على مشكلة "البداية الباردة" للنماذج في التعامل مع البيانات الهيكلية، وت outline نحو تعلم معرفي حقيقي. هل يمكن أن تكون هذه التكنولوجيا هي المفتاح لفهم أفضل للبيانات السريرية؟
ما رأيكم في هذه التطورات المثيرة؟ شاركونا آرائكم في التعليقات!
كيف تكشف نماذج اللغة الضخمة عن حدود معرفتها في البيانات السريرية؟
تكشف الأبحاث الحديثة أن نماذج اللغة الضخمة (LLMs) تُظهر ثغرات معرفية خطيرة عند تحليل البيانات السريرية. وفي دراسة جديدة، تم فحص قدرتها على التعرف على حدود معرفتها وكيفية تحسين ثقتها في التنبؤات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
