في عصر تتزايد فيه استخدامات الذكاء الاصطناعي في المجالات الصحية، باتت نماذج اللغة الكبيرة (Large Language Models) مصدرًا شائعًا للمعلومات الصحية التي تعتمد على تفسير وتخصيص الاستجابات بدلاً من مجرد استرجاعها. ولكن، كيف تقف هذه النماذج عند مواجهة مستخدمين مختلفين؟ هذا هو السؤال الأساسي الذي تطرحه دراسة جديدة تسلط الضوء على العوائق الهيكلية أمام تقييم هذه الأنظمة.

تتضمن الدراسة تقييم مدى اختلاف استجابات نماذج الصحة المتوجهة للمستهلكين في ظروف مشابهة لاستخدام المرضى العادي. قامت بإعداد ملفات تعريف مستخدمين محاكية تختلف في الجغرافيا وسياق التصفح والمعتقدات المعلنة، مما يعكس كيف تؤثر الظروف الاجتماعية على المواقف الصحية.

من خلال الدراسة، واجه الباحثون خمس عوائق مترابطة تتعلق بتقييم النماذج: أولًا، كانت الردود الثابتة على الأسئلة الواقعية تخفي الاستجابات المتملقة التي تظهر خلال المحادثات المطولة. ثانيًا، لم تكشف واجهات المتصفحات عن الإشارات المؤثرة في الاستجابات، مما جعل من الصعب إعادة تهيئة النماذج من جديد. ثالثًا، كانت الاختبارات الواسعة مقيدة بشروط الخدمة ومحددات السرعة وكشف الروبوتات. كما أن المعايير المعتمدة على الدقة لم تكن قادرة على التقاط النغمة أو الإطارات أو الفجوات في المعلومات. وأخيرًا، فإن التغييرات في النماذج لم تكن تحمل معرفات إصدار قابلة للتعقب، مما يمنع التكرار الموثوق للدراسات.

ختامًا، لا يزال هناك نقص في الأطر المستقلة الموثوقة لتقييم سلوك نماذج اللغة الكبيرة في الاستخدام اليومي للرعاية الصحية. من الضروري توفير إشعارات حول إشارات التخصيص، معرفات الإصدارات المستقرة، برامج حماية الباحثين، ومراقبة ما بعد النشر للمخرجات المتعلقة بالصحة.