في عالم الذكاء الاصطناعي، تعتبر نماذج اللغة الكبيرة (LLMs) محورًا وجزءًا لا يتجزأ من التطورات الحديثة في التطبيقات الطبية. ومع تزايد الاعتماد على هذه النماذج، برزت الحاجة إلى أدوات فعالة لتقييم أدائها. هنا يأتي دور ميد ماركس، مجموعة معايير تقييم مفتوحة بالكامل تهدف إلى معالجة التحديات المرتبطة بتقييم نماذج اللغة في مجالات الطب.
تشمل مجموعة ميد ماركس 30 معياراً تغطي مجموعة متنوعة من المهام الطبية، مثل الإجابة على الأسئلة، واستخراج المعلومات، والعمليات الحسابية الطبية، والتفكير السريري المفتوح. هذا التنوع يوفر نظامًا شاملًا لتقييم النماذج المختلفة، مما يمكّن الباحثين والمطورين من فهم أدائها بشكل أفضل.
أجرينا تقييمًا منهجيًا لـ 61 نموذجًا عبر 71 تكوينًا، باستخدام مقاييس قابلة للتحقق وLLM كقاضٍ لتقييم النتائج. أظهرت النتائج أن النماذج الحديثة مثل Gemini 3 Pro Preview وGPT-5.1 وGPT-5.2 تتفوق في الأداء عبر المعايير المختلفة. كما تبين أن النماذج الخاصة تتفوق بشكل ملحوظ على النماذج المفتوحة من حيث كفاءة استخدام التوكنز.
أيضًا، يُظهر البحث أن النماذج الطبية التي تم ضبطها بشكل خاص تتجاوز نظيراتها العامة، وأن هناك انحيازًا في ترتيب الإجابات بين النماذج الأصغر مثل Grok 4.
بفضل مجموعة معايير Medmarks-T، يمكن استخدام جزء من هذه التقييمات مباشرة كبيئات للتعلم المعزز (Reinforcement Learning) لتدريب نماذج اللغة الكبيرة على التفكير الطبي. كل الأكواد المتعلقة بهذا المشروع متاحة على منصة GitHub.
ميد ماركس ليست مجرد معيار لتقييم النماذج، بل هي خطوة كبيرة نحو تحسين التطبيقات الطبية المبنية على الذكاء الاصطناعي. فما رأيكم في هذا التطور الجديد؟ شاركونا في التعليقات.
ميد ماركس: مجموعة معايير مفتوحة لتقييم نماذج اللغة الكبيرة في مجال الطب
ميد ماركس تقدم معياراً كاملاً لتقييم نماذج اللغة الكبيرة (LLMs) المتعلقة بالطب، مما يساعد في تخفيف التحديات المرتبطة بالبيانات المحدودة والتغطية غير الكافية للمهام. المجموعة تحتوي على 30 معياراً متنوعة تشمل الإجابة على الأسئلة، واستخراج المعلومات، والعديد من المهام الطبية الأخرى.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
