مع تزايد الاعتماد على نماذج اللغة الضخمة (Large Language Models) في المجالات الطبية، تظهر حاجة ملحة لتقييم سلامة هذه التكنولوجيات قبل استخدامها في العيادات. وبالرغم من وجود مقاييس سلامة متعددة، إلا أن معظمها يركز على اللغة الإنجليزية ويعتمد فقط على استجابات نصية فردية. لذا، تم ابتكار JMedEthicBench، المعيار الأول من نوعه لتقييم سلامة الذكاء الاصطناعي في السياقات الطبية اليابانية من خلال محادثات متعددة الأدوار.
يعتمد هذا المعيار على 67 دليلًا من الرابطة الطبية اليابانية ويشمل أكثر من 50,000 محادثة معقدة تم إنشاؤها باستخدام استراتيجيات اختراق متعددة. ومن خلال بروتوكول تقييم مزدوج يعتمد على نموذجين، تم اختبار 27 نموذجًا مختلفًا. ووجدت الدراسة أن النماذج التجارية تحتفظ بمستويات قوية من السلامة، بينما تظهر النماذج المتخصصة في المجال الطبي ضعفًا أكبر.
كما أظهرت النتائج أن درجات السلامة تنخفض بشكل ملحوظ عبر أدوار المحادثة، حيث تقل من 9.5 إلى 5.0. وللمثير، أن النتائج عبر اللغتين اليابانية والإنجليزية تشير إلى أن نقاط ضعف النماذج الطبية تتجاوز الحدود اللغوية، مما يدل على قيود في توافق النماذج نفسها.
تشير هذه النتائج إلى أن التحسينات الخاصة بالمجال قد تضعف بشكل غير مقصود آليات السلامة، وأن التفاعلات متعددة الأدوار تمثل تهديدًا يتطلب استراتيجيات توافق مخصصة. هذا الابتكار يمثل خطوة حيوية نحو تعزيز سلامة الذكاء الاصطناعي في التطبيق الطبي، مع ضرورة معالجة هذه التحديات لضمان الاستخدام الآمن لهذه التقنيات المتطورة.
JMedEthicBench: المعيار الثوري لتقييم سلامة الذكاء الاصطناعي الطبي في اليابان!
يعكس JMedEthicBench تطورًا هامًا في تقييم سلامة نماذج اللغة الضخمة (Large Language Models) في المجال الطبي الياباني. يستخدم هذا المعيار الفريد أكثر من 50,000 محادثة لاختبار فعالية هذه النماذج ويكشف عن نقاط ضعف كبيرة تحتاج إلى معالجة فورية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
