مع تزايد دمج نماذج اللغات الكبيرة (LLMs) في الأنظمة السريرية، بات من الضروري تقييم فائدة هذه الأنظمة في العالم الحقيقي. ومع ذلك، غالبًا ما تقيس المعايير الثابتة الدقة بدلاً من قبول المستخدم، مما يؤدي إلى ظهور نقاط ضعف كبيرة في تقييم الأنظمة السريرية.
في دراسة جديدة، تم إجراء تقييم مخصص لنموذج LLM مدمج ضمن سجلات الصحة الإلكترونية في مركز طبي أكاديمي، حيث تمثل تغذية راجعة المستخدمين العنصر الأساسي، حتى وإن كانت نادرة، كونها تعكس الظروف التشغيلية بشكل دقيق.
تضمنت الدراسة تدريب نموذج تصنيف مسبق يتنبأ بالاحتمالية التي قد يقبل بها المستخدم استجابة LLM، بالاعتماد على محتوى الاستفسارات والسياق المحدد لعملية النشر التي تتوفر قبل عملية التوليد.
خلال 4.5 أشهر من تغذية راجعة المستخدمين، حقق نموذجنا دقة بلغت AUROC تصل إلى 0.719. بالإضافة إلى ذلك، قمنا بتقدير الفوائد الناتجة عن هذه التنبؤات في حالتين رئيسيتين: تفعيل الحواجز وضبط التوجه.
تتمثل الرؤية الأساسية من هذه الدراسة في استخدام السياقات الخاصة بعملية النشر (مثل نوع المزود، اسم القسم، ونموذج اللغة المستخدم للإجابة) بجانب محتوى الاستفسار، مما يعزز من إمكانية التنبؤ بدقة ما إذا كان المستخدم سيرفض مخرجات النظام.
تظهر هذه الدراسة التجريبية إمكانية التنبؤ برفض المستخدم، مما يتيح توفير حواجز مستهدفة لتحسين التفاعل والقبول بين المستخدمين ونماذج الذكاء الاصطناعي.