في عالم الجراحة المعتمد على التكنولوجيا، يمثل فهم مشاهد الجراحة (Surgical Scene Understanding) حجر الزاوية للتدخلات المعتمدة على الكمبيوتر. على الرغم من التقدم الملحوظ الذي شهدته تقنيات تقسيم الصور الجراحية، إلا أن تطبيقات العالم الواقعي تتطلب فهمًا شاملًا يتضمن السياق الإجرائي، والتفكير الدلالي، والتجسيد البصري الدقيق.
عادةً ما تعالج الأساليب الحالية هذه العناصر بشكل منفصل، مما يؤدي إلى تمثيلات مجزأة ونقص في التناسق الدلالي. لكن الخبراء في هذا المجال قدموا حلاً مبتكرًا من خلال نموذج يُطلق عليه اسم SurgMLLM، وهو إطار عمل موحد لفهم مشاهد الجراحة يجمع بين التفكير العلوي والتجسيد البصري السفلي ضمن نموذج واحد.
يعتمد SurgMLLM على مقاطع الفيديو الجراحية لتهيئة نموذج لغوي متعدد الوسائط (Multimodal Large Language Model) لتعزيز قدراته على تفسير الحالات بصورة منظمة، مما يساعد في نمذجة مراحل العملية، ورموز أدوات الفعل-الهدف (Instrument-Verb-Target Triplets)، ورموز تقسيم الكيانات الثلاثية.
تتم بعد ذلك تجميع هذه الرموز معًا من الناحية الزمنية لتكون بمثابة مؤشرات لشبكة تقسيم، مما يمكن من تجسيد دقيق للأدوات والأهداف على مستوى البكسل. تم تدريب الإطار بالكامل من البداية إلى النهاية بهدف موحد يجمع بين إشراف التفكير القائم على اللغة وفقدان التجسيد البصري، مما يعزز التعلم المتناسق بين المهام ويمثل مشاهد متسقة سريريًا.
لتسهيل التقييم الموحد، تم تقديم مجموعة بيانات CholecT45-Scene، التي توسع مجموعة بيانات CholecT45 بإضافة 64,299 إطارًا منannotations masks لكل من الأدوات والأهداف، بحيث تتماشى مع علامات الثلاثيات الموجودة.
أظهرت التجارب الواسعة أن SurgMLLM تشير إلى تقدم ملحوظ في فهم مشاهد الجراحة، حيث تم تحسين مقياس التعرف الأساسي على الثلاثيات AP_IVT من 40.7% إلى 46.0% مع أداء متفوق على الأساليب السابقة في التعرف على المراحل والتقسيم. هذه النتائج تسلط الضوء على فعالية الربط بين التفكير والتجسيد كوسيلة موثوقة لمساعدة جراحية متوافقة مع السياق.
فهم مشاهد الجراحة بشكل موحد: ربط التفكير بالتجسيد عبر نماذج لغوية متعددة الوسائط
تناولت الدراسة الجديدة مفهوم فهم مشاهد الجراحة بتبني نهج موحد يجمع بين التفكير والتجسيد البصري، مما يعزز دقة التدخلات الطبية. يعد نموذج SurgMLLM خطوة متقدمة في هذا الاتجاه، حيث يسهم في تحسين دقة التعرف على الأدوات الطبية في بيئات الجراحة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
