أصبحت تكنولوجيا الذكاء الاصطناعي جزءاً أساسياً من مجال الطب، ولا سيما في تشخيص الأمراض من خلال تحليل الصور الطبية. في هذا السياق، تم تقديم إطار عمل جديد يُعزز نماذج اللغات البصرية (Vision-Language Models - VLMs) من خلال التفكير المتعدد المقاييس.
تعتمد الصور المرضية على معطيات متعددة المقاييس، حيث يتعين على أطباء الأمراض دمج الأدلة من بنية الأنسجة الكلية عند تكبير منخفض إلى ملامح الخلايا عند تكبير مرتفع، لضمان دقة تشخيصهم. ومع أن مجموعات البيانات الحالية لنماذج اللغات البصرية تضم مقاييس متنوعة، إلا أنها غالباً ما تفتقر إلى هدف واضح يربط بين المقاييس، مما يعيق قدرة النماذج على استيعاب التمثيلات الضرورية.
لمعالجة هذه المشكلة، يُقدم البحث الجديد أول نهج تدريبي وتحليلي يستند إلى التفكير متعدد المقاييس في تفسير الأمراض. ومع ذلك، يكشف إنشاء مثل هذه المهمة عن تحدٍ كبير، وهو أن الإجابة على الأسئلة المتعلقة بصور متعددة يمكن أن يفتح المجال لاختصارات تعتمد على النصوص فقط، مما يسمح للنماذج بتخمين الإجابات استناداً إلى معلومات مغلوطة بدلاً من الأدلة المرئية.
لتجاوز هذا التحدي، تم اقتراح نظام دقيق يجمع بين تصفية النصوص بطرق تتسم بالمعارضة مع تصميم الأسئلة بطريقة مرتبطة بالأدلة المرئية. باستخدام هذا النظام، تم تطوير مقياس Scale-VQA، وهو معيار عالي الجودة يحتوي على 4,685 سؤالاً متعدد الاختيارات مستنداً إلى 2,537 صورة مرضية عبر مستويات تكبير متعددة.
في الختام، تم تقديم نموذج ScaleReasoner-R1 الذي تم تدريبه باستخدام التعلم المعزز لتحسين الأداء على مهمة التفكير المتعدد المقاييس. وقد حقق هذا النموذج أداءً رائداً على المعيار الجديد، وأظهر قدرة على التعميم مع تحقيق نتائج ممتازة على معايير أحادية المقاييس.
تشير النتائج إلى أن الإشراف المحدود عبر المقاييس يمكن أن يحسن بشكل كبير من فهم الأمراض. كما يُتوقع أن يكون الكود والتجارب القادمة مفتوحة المصدر للجمهور، مما يشجع على مزيد من التطورات في هذا المجال.
ثورة في تشخيص الأمراض: تعزيز نماذج اللغات البصرية بتفكير متعدد المقاييس
في خطوة رائدة لتطوير نماذج تحليل الصور الطبية، تم إطلاق نموذج جديد يستخدم تفكيراً متعدد المقاييس لتحسين دقة التشخيص. النتائج توضح قدرة هذا الابتكار على تحسين فهم الأمراض بشكل كبير.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
