في عالم اليوم، تلعب نماذج اللغة الكبيرة (LLMs) دورًا مركزيًا في استجابة الأسئلة اليومية المتعلقة بالصحة، بما في ذلك استفسارات حول أمان تناول جرعة إضافية من الأدوية التي تُصرف بدون وصفة طبية (OTC). ومع ذلك، فإن هذه القضية المهمة لا تزال غير مكتشفة إلى حد كبير في تقييمات الأسئلة الطبية الموجودة، التي تتطلب من النماذج متابعة توقيت الجرعات، وحساب الجرعات المتكررة على مدار 24 ساعة، والالتزام بقيود ملصقات المنتجات، ومعالجة تواريخ الأدوية غير الكاملة.
للتغلب على هذه الفجوة، تم تقديم DOSEBENCH، وهو معيار يركز على 81 سيناريو مترابط لجرعات OTC، مع التركيز على استخدام الأسيتامينوفين والإيبوبروفين البالغين. تم تزويد كل سيناريو بمراجع مرجعية يدوية. لقد قمنا بتقييم أربعة نماذج لغوية عبر عدة جولات مستخدمين مقاييس لقياس دقة القرار، والاتساق، وقابلية تفسير الشرح، وأنواع الفشل، وإشارات متعلقة بالثقة، مما أسفر عن 1,620 ردًا من النماذج.
أظهرت نتائجنا أن النماذج غالبًا ما تكافح مع التفكير المنطقي المتسلسل والحالات الحساسة للغموض، وأن الردود التي قد تبدو مستقرة أو واثقة يمكن أن تنتهك قيود الجرعات. تشير هذه النتائج إلى أن أسئلة جرعات OTC توفر ساحة اختبار ضيقة ولكن عملية لتقييم التفكير الزمني، واتباع القيود، والتعامل مع عدم اليقين المتعلق بالسلامة في الأسئلة الطبية.
ما رأيكم في هذا التطور الجديد؟ شاركونا أفكاركم في التعليقات.
هل يمكنك تناول جرعة إضافية؟ تقييم قرارات نماذج اللغة الكبيرة تحت عدم اليقين الزمني في أسئلة جرعات الأدوية
تقرير جديد يكشف عن تحديات نماذج اللغة الكبيرة في تقييم سلامة الجرعات. مع إطلاق DOSEBENCH، ننغمس في فهم كيف يمكن لهذه النماذج معالجة الأسئلة المتعلقة بالأدوية بشكل أكثر دقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
