تواجه عملية توليد التقارير التشخيصية في علم الأمراض تحديات كبيرة، خاصة عند التعامل مع الصور عالية الدقة (Gigapixel) التي تحتوي على معلومات معقدة. في هذا السياق، تم تقديم نموذج رؤية-لغة (Vision-Language Model) بسيط ولكنه فعال لتوليد تقارير الأمراض على مستوى الحالات.

يعتمد هذا النموذج على تصميم مكوناته الثلاثة: 1) مُشفِّر للشرائح المرضية (Pathology Patch Encoder) ثابت، 2) مُوازن رؤية-لغة خفيف الوزن يتكون من طبقتين (Two-layer MLP Vision-Language Aligner)، و3) مُفكك تشفير نماذج لغوية كبيرة (Large Language Model Decoder) مزود بعلامة واضحة لكل شريحة. ولكن ما يميز هذا النموذج هو قدرته على العمل بشكل فعال داخل قيود ذاكرة GPU، حيث يتطلب تدريب هذا النموذج جهداً أقل مقارنةً بالموديلات التقليدية.

قد تم تدريب النموذج على مرحلتين: الأولى تتعلق بتعليقات الشرائح باستخدام أزواج نصوص وصور، والثانية تتعلق بتخصيص دقيق على مستوى الحالة لتوليد تقارير منظمة. ومن خلال استخدام شرائح بحجم 512×512 مع زيادة بمقدار 5×، تمكن الفريق من تقليل طول السلسلة بمعدل يصل إلى 64 مرة مقارنة بطرق سابقة.

أظهرت النتائج أن النموذج الجديد حقق درجات مرتفعة في مقاييس ROUGE-L، METEOR، وBLEU-4، مما يشير إلى كفاءته العالية في التوليد. النماذج المعتمدة على الذكاء الاصطناعي تفضل هذا النموذج باستمرار على نماذج مرجعية قوية أخرى.

بهذا، يقدم هذا البحث أساساً متيناً لتوليد تقارير الأمراض بشكل فعّال، مما يسهل من استخدام تكنولوجيا الرؤية-لغة في الأبحاث المستقبلية.

ما رأيكم في استخدام الذكاء الاصطناعي في علم الأمراض؟ شاركونا في التعليقات.