بينما تواصل الروبوتات الجراحية تحقيق تقدم مذهل، تتعرض النماذج الجديدة من الذكاء الاصطناعي إلى تحديات في تقييم أدائها بدقة. هنا يأتي دور *سيرجفلا-بنش* (SurgVLA-Bench) - المعيار الأول من نوعه الذي يهدف إلى قياس أداء نماذج *الذكاء الاصطناعي المعتمد على الرؤية واللغة والإجراء* (Vision-Language-Action) في مجال جراحة المنظار.

تعد النماذج التي تستخدم تقنيات VLA واعدة للغاية في مساعي الذكاء الاصطناعي المتجسد، لكن حتى الآن، لم يكن هناك معيار موحد لتقييم أدائها في السياقات الجراحية.

جاءت فكرة *سيرجفلا-بنش* كخطوة إلى الأمام، حيث يتم تشغيله من خلال منصة *SurRoL* لمحاكاة الروبوتات، مما يوفر هيكلًا متدرجًا يتيح تقييم العمليات الجراحية من الإجراءات البسيطة إلى العمليات الكاملة، مُعزَزًا بإطار تقويمي متعدد الأبعاد يعكف على قياس دقة الإجراءات وتناسق المعاني.

لقد قمنا بتنفيذ تقييمٍ منهجي لعدد من النماذج النموذجية، بما في ذلك النماذج اللاترجعية مثل *OpenVLA* ونماذج مطابقة التدفق مثل *π₀* و*π₀.5* و*SmolVLA*. أظهرت التجارب أن النماذج اللاترجعية تتمتع بفهم أكبر للمعاني، بينما عادة ما تحقق نماذج مطابقة التدفق دقة أكبر في المهام ولكنها تواجه صعوبات في التعميم. وعلى الرغم من ذلك، لا تزال النماذج الأكثر أداءً بعيدة عن تقديم نتائج مرضية، حيث تظل محدودية مجال رؤية المنظار، وزوايا المشاهدة المقيدة، والانسدادات المتكررة من بين العقبات المادية الرئيسية.

لمن يرغب في استكشاف المزيد، يمكن الوصول إلى الكود والبيانات عبر هنا.