في سعي متواصل نحو تحسين تشخيص الأمراض العصبية، أظهرت نماذج اللغات متعددة الأنماط (MLLMs) قدرات فائقة في التعرف على الحركات البشرية اليومية، ولكن هل يمكنها أيضاً تحليل الحركات المرضية ذات الأهمية السريرية؟

أجرى الباحثون دراسة تجريبية مبتكرة لتقييم قدرة هذه النماذج على التعرف الأوتوماتيكي على الحركات المرضية في مقاطع الفيديو الخاصة بالنوبات. تم اختبار الأداء بدون تدريب محدد للمهمة، حيث استعان الباحثون بـ 20 ميزة متعلقة بالنوبات وفقاً لتصنيف الرابطة الدولية لمكافحة الصرع (ILAE) عبر 90 تسجيل سريري للنوبات.

أظهرت نتائج الدراسة أن نماذج MLLMs تفوقت على نماذج الشبكات العصبية التفصيلية (CNN) ومحولات الرؤية (ViT) في 13 من 18 ميزة، مما يدل على قوة هذه النماذج في التعرف على الميزات البارزة والسياقية، رغم وجود صعوبات في التعرف على الحركات الدقيقة ذات التردد العالي.

تم اختبار تحسين أداء النماذج من خلال استراتيجيات محددة تستهدف الميزات مثل قص الوجه، تقدير الوضع، وإزالة الضوضاء من الصوت، وقد أدت هذه التحسينات إلى تحسين الأداء على 10 من 20 ميزة.

تظهر التقييمات من الخبراء أن 94.3% من التفسيرات التي قدمتها نماذج MLLMs للحالات التي تم التنبؤ بها بشكل صحيح حققت على الأقل 60% من درجات الصدق، مما يتوافق مع تفكير أطباء الأعصاب المتخصصين.

ما هي الإمكانيات المستقبلية التي قد تفتحها هذه التكنولوجيا في مجال الرعاية الصحية؟ تسمح هذه النتائج بتكييف نماذج MLLMs العامة لتحليل الفيديوهات السريرية المتخصصة من خلال استراتيجيات المعالجة المسبقة المستهدفة، مما يوفر مساراً نحو تقديم دعم تشخيصي فعال وسهل الفهم.

للاطلاع على الأكواد المستخدمة في هذه الدراسة، يمكنكم زيارة الرابط: [https://github.com/LinaZhangUCLA/PathMotionMLLM].