في عالم التكنولوجيا الحديثة، حيث يتزايد الاعتماد على الذكاء الاصطناعي بشكل متسارع، برزت تقنية جديدة تُعرف باسم RIHA (توافق الترتيب الهرمي بين التقارير والصور). تعتمد هذه التقنية المبتكرة على آليات حديثة لتخفيف الضغط على أطباء الأشعة، من خلال توليد تقارير تشخيصية بشكل تلقائي من الصور الطبية.

يُعتبر تحدي التنسيق الدقيق بين الخصائص البصرية المعقدة والهياكل الهرمية للتقارير الطويلة من العقبات الرئيسة في توليد تقارير الأشعة (Radiology Report Generation). بينما قدمت الأساليب الحديثة تحسينات ملحوظة في تعلم تمثيل النص والصورة، إلا أنها كثيراً ما تعامَل التقارير كسلاسل سطحية، مما يؤدي إلى إغفال أقسامها المنظمة وترتيباتها الدلالية. هذا التبسيط يعوق القدرة على تحقيق توافق دقيق بين الأنماط المختلفة ويؤثر سلباً على دقة تقارير الأشعة.

لحل هذه المشكلة، تقترح RIHA إطاراً جديداً يعمل من خلال تنسيق متعدد المستويات بين الصور الإشعاعية وتقاريرها المقابلة على مستويات الفقرات والجمل والكلمات. يتيح هذا التنسيق الهرمي إمكانية تحقيق رسم خرائط أكثر دقة بين الأنماط المختلفة، مما يعتبر ضرورياً لالتقاط المعاني الدقيقة المضمنة في السرد الطبي.

تتميز تقنية RIHA بإدخال هرم الميزات البصرية (Visual Feature Pyramid) لاستخراج الميزات البصرية متعددة المقاييس، وهيكل الميزات النصية (Text Feature Pyramid) لتمثيل الهياكل النصية متعددة الدرجات. يتم دمج هذه المكونات من خلال وحدة التنسيق الهرمي بين الأنماط (Cross-modal Hierarchical Alignment) مستخدمةً النقل الأمثل لضبط ميزات الصور والنص بدقة على مستويات مختلفة.

علاوة على ذلك، تم دمج ترميز المواقع النسبية (Relative Positional Encoding) في وحدة فك التشفير لنمذجة العلاقات المكانية والدلالية بين الرموز، وهذا يُعزز التنسيق بين الميزات البصرية والنص المُولد.

تم إجراء تجارب واسعة على مجموعتين مرجعيتين لصور الأشعة السينية على الصدر، IU-Xray وMIMIC-CXR، وتظهر النتائج أن RIHA تتفوق على النماذج الحالية من حيث توليد اللغة الطبيعية وقياسات الفعالية السريرية. إن هذه الخطوة تمثل تقدماً مهماً في طريق تطوير الذكاء الاصطناعي، مما يبشر بمستقبل أكثر دقة وكفاءة في مجال الأشعة الطبية.

ما رأيكم في هذه التقنية الجديدة؟ شاركونا آراءكم وتفاعلاتكم في التعليقات.