في مجالات حيوية مثل الرعاية الصحية، تعتبر موثوقية نماذج اللغات الضخمة (Large Language Models) أمرًا حيويًا. هذه النماذج تُستخدم لتوليد معلومات سريرية من تقارير الحوادث الطبية، وهو ما يسلط الضوء على أهمية وجود طرق فعّالة لتحسين دقة هذه النماذج.

أحدثت دراسة جديدة قدمت طريقة اختيار أمثلة قائمة على التصنيفات ضجة في هذا المجال. تم استخدام مجموعة بيانات طبية يابانية تحتوي على 3,884 تقرير لحوادث طبية حقيقية، حيث تم تمييز بعض هذه التقارير بعدة تصنيفات تتضمن معلومات وصفية كـ "الأدوية" و"علاج نقل الدم".

في هذه التجربة، تمت مقارنة ثلاث استراتيجيات مختلفة لاختيار الأمثلة: العينة العشوائية، اختيار قائم على التشابه (cosine similarity)، والطريقة المقترحة المعتمدة على التصنيفات. استخدم الباحثون نماذج ثلاثية الأبعاد مثل GPT-4o و LLaMA 3.3. أظهرت النتائج أن الطريقة القائمة على التصنيفات حققت أعلى دقة وأفضل سلوك في توليد النصوص، بينما تسبب اختيار التشابه في نتائج غير مقصودة وتفعيل مرشحات الأمان.

تُظهر هذه النتائج أن اختيار الأمثلة بناءً على التصنيفات القابلة للتفسير يمكن أن يحسن دقة النموذج وثباته في التطبيقات السريرية. مما يفتح الأبواب لتقنيات جديدة تُمكن مقدمي الرعاية الصحية من اتخاذ قرارات أكثر أمانًا وبناءً على أدلة موثوقة.