في عصر أصبحت فيه نماذج الذكاء الاصطناعي تحتل مكانة بارزة في مختلف المجالات، ظهرت الحاجة الملحة لتقييم قدرتها على التعامل مع المهام الطبية المعقدة. في دراسة جديدة تم نشرها على منصة arXiv، تم إجراء تقييم محكم لنماذج لغوية متقدمة مثل GPT 5.4، Claude Opus 4.7، وGemini 3.1 Pro، وذلك من خلال مجموعة تضم خمسة سيناريوهات طبية صعبة في أربعة تخصصات مختلفة.

ويتضح من النتائج أن الأداء في المهام السريرية لا يزال بعيدًا عن المستوى المطلوب، حيث حققت نماذج Claude وGPT وGemini معدلات اجتياز تتراوح بين 0.37 إلى 0.47 وفقًا لمعايير محكمة تم تطويرها بواسطة أطباء مختصين. ما يثير الدهشة هو أن المعايير الأكثر أهمية، والتي تحمل وزنًا عالياً وتعتبر حرجة، لم تتمكن نماذج الذكاء الاصطناعي من تحقيق النجاح فيها بنسبة تفوق 41.7%. في المقابل، كانت معايير الوزن المنخفض تحرز نتائج جيدة تصل إلى 90%.

هذا البحث لا يمثل فقط تحليلًا للأداء، بل يشير أيضًا إلى نقاط ضعف كبيرة في قدرة هذه النماذج على فهم الأولويات السريرية.

يمكن اعتبار هذه الدراسة بمثابة نقطة بداية لتطوير نموذج تقييم شامل يمكن من خلاله تحسين أداء الذكاء الاصطناعي في الحقل الطبي، مما يفتح المجال أمام انطلاقات جديدة في معالجة الذكاء الاصطناعي للمهام المتعلقة بالصحة.

ما هو رأيكم في هذه التحديات التي تواجه نماذج الذكاء الاصطناعي في المهام السريرية؟ هل تعتقدون أن هناك آفاق جديدة يمكن أن تُفتح أمام هذه التكنولوجيا؟ شاركونا في التعليقات!