في إطار ثورة التكنولوجيا الطبية، ظهرت دراسة جديدة تقدم طريقة مبتكرة لتحسين تشخيص الفيديو بالاعتماد على تقنيات تعلم اللغة الرؤيوية (Vision-Language Learning). هذه الدراسة تتناول تحديات عدم التوازن الشديد في البيانات، والتي تمثل عقبة كبيرة في تصنيفات الأحداث الزمنية متعددة العلامات، وتقدم حلاً جذرياً.

الابتكار يأتي من دمج خسارة الفصل الزاوي (Angular Separation Loss) وبنية آلة الحالة البيولوجية (Biological State Machine) لفك تشفير الزمن، مما يضمن دقة أعلى في تصنيف الحالات المرضية. يستخدم النظام قاعدة بيانات Galar الشهيرة التي تعاني من قلة التوازن بين الفئات، ويعتمد على نموذج BiomedCLIP كأساس له.

يعمل النظام على دمج ثلاث إطارات متعاقبة من الفيديو باستخدام وحدة انتباه الفروقات المحلية (Local Differencing Attention)، لتعزيز الإشارات المرضية العابرة وتقليل التكرار الزمني الثابت. بعد ذلك، تأتي المرحلة الجديدة وهي رأس سياق التشريح (Anatomy Context Head) التي تضبط التنبؤات المرضية بناءً على تفعيلات تشريحية ناعمة، مما يستفيد من البنية المعروفة للترابط المكاني لنتائج الجهاز الهضمي.

للتغلب على مشكلات التوزيع المنحرف للعلامات، تم تطوير نظام تدريب يجمع بين أساليب متقدمة مثل خسارة بؤر عدم التوازن، واستخدام معدل العينة المعتمد على التكرار، ومزج الزمن (Temporal Mixup) لتحديث النماذج. كما يقوم المُفكك البيولوجي الجديد بتعزيز التحولات الحالة بنحو جسدي، مما يقلل من حدوث أحداث تشريحية خاطئة في الفيديو.

اختبارات الأداء أظهرت أن النظام الحديث حقق تحسناً كبيراً في الدقة المكانية الزمانية على مجموعة الاختبار RARE-VISION، مع تحقيق متوسط نسبة دقة زمنية (mAP) بنسبة 0.3597 عند عتبة 0.5، مما يمثل تحسناً نسبياً بنسبة 46% مقارنة بالإصدارات السابقة. إن هذا التطور يفتح آفاقاً جديدة في عالم تشخيص الفيديو، ويعزز الأمل في تقنيات أكثر دقة وكفاءة في علاج الأمراض.