في عالم يتطور بسرعة، تلعب نظم الحوار الطبية دوراً حيوياً في دعم اتخاذ القرارات السريرية. ومع ذلك، تظل المخاطر المرتبطة بالنتائج الغير موثوقة، مثل الهلاوس والاقتراحات غير الآمنة، تمثل تحدياً كبيراً يُهدد سلامة المرضى. ولذا، قدم الباحثون في ورقة بحثية جديدة نموذجاً مبتكراً لتقييم هذه النظم يُعرف بالمعايير الآلية (Automated Rubrics). يعتمد هذا الإطار على استرجاع الأدلة الطبية الموثوقة، حيث يُقسم المحتوى المسترجع إلى حقائق دقيقة؛ مما يمكنه من توفير معايير تقييم دقيقة وقابلة للتحقق.
تم تقييم النموذج الجديد على مجموعة بيانات HealthBench وLLMEval-Med، حيث حقق معدلات توافق سريري (Clinical Intent Alignment) تصل إلى 50.20% و31.90%، متفوقاً وبفارق كبير على نموذج GPT-4o. في اختبارات الفجوة خارج اللغة، أثبت النماذج الجديدة قدرته على تحقيق نتائج موثوقة بشكل متسق. بالإضافة إلى ذلك، ساهمت المعايير الجديدة في تحسين جودة الاستجابات بنسبة 9.2%، مما يوفر دعماً مقياساً لتقييم وتحسين نماذج اللغة الكبيرة في مجال الرعاية الصحية.
تجدر الإشارة هنا إلى أن الكود البرمجي الخاص بالنموذج متاح على منصة GitHub، مما يتيح للمطورين والباحثين استغلال هذه التجربة والمساهمة في تحسين جودة الخدمات الصحية العالمية.
ثورة في تقييم نظم الحوار الطبية: نموذج آلي يضمن موثوقية التقييم!
قدم الباحثون إطار عمل مبتكراً لتوليد معايير تقييم آلية خاصة لكل حالة بهدف تعزيز موثوقية نظم الحوار الطبية. هذه المعايير تستند إلى أدلة طبية موثوقة وتتيح تحسين جودة النتائج السريرية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
