في تجربة مثيرة، أظهرت دراسة جديدة أن نماذج اللغة الكبيرة (LLMs) قادرة على استنتاج قوة الأدلة السريرية من خلال تمثيلاتها، رغم أنها لا تعبر عن ذلك بشكل واضح عندما تُسأل. قام الباحثون بجمع 45,134 ادعاءً سريرياً من ستة مصادر عامة، ونجحوا في توحيد 20,611 منها إلى أربع مستويات من درجات الأدلة تحت ثلاثة أطر مستقلة.

استخدمت الدراسة 22 نموذجاً محلياً من نماذج اللغة الكبيرة، تتراوح أحجامها من 0.6 إلى 70 مليار معلمة، تشمل النماذج العامة والطبية ونماذج الاستدلال. مسلطة الضوء على اختبار الأداء، حيث تم استرجاع الدرجة في كل نموذج، مع متوسط أداء يصل إلى 71.8%. ومع ذلك، كانت قدرة استنتاج المعلومات الأقل فاعلية في نماذج الاستدلال.

لاحظ الباحثون أن العمق المعرفي لم يكن مرتبطًا بحجم النموذج، حيث انخفضت الدرجات المستخلصة بشكل ملحوظ، مما أظهر مشكلة كبيرة في قدرة هذه النماذج على التواصل الفعال لنقل الثقة في المعلومات. بينما استمرت النماذج في الإشارة إلى بيانات ذات دعم ضعيف، إلا أن القدرة على استرجاع وعرض قوة الأدلة بقيت محدودة.

النتائج تسلط الضوء على أن نماذج LLMs تحمل إشارة مرتبة للقوة الدليلية، ولكنها تفتقر إلى التعبير عنها بشكل دقيق مما قد يؤثر سلباً على اتخاذ القرارات في المجال الطبي. إذًا، كيف يمكن تحسين هذه النماذج لتكون أكثر فعالية في نقل الثقة والأدلة القوية؟

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.