تطورت محولات الهندسة البصرية (Visual Geometry Transformers) لتصبح هياكل قوية قادرة على إعادة بناء ثلاثي الأبعاد متعدد المناظر. فهي تمكّن من التنبؤ المشترك متعدد الخصائص ثلاثية الأبعاد بطريقة أسرع وأكثر كفاءة. ومع ذلك، فإن التكلفة الحاسوبية لهذه النماذج تنمو بشكل متسارع مع زيادة طول تسلسل الإدخال، وذلك بسبب طبقات الانتباه العالمي المستخدمة داخلها.

لحل هذه المشكلة، تقدم الدراسة الحالية استراتيجية جديدة وبسيطة: تقييد عدد الرموز الرئيسية/القيم (Key/Value Tokens) التي يتفاعل معها كل استعلام خلال الانتباه العالمي. ويتضمن ذلك إطار عمل من مرحلتين، حيث تتم المرحلة الأولى من الاختيار بين الإطارات لتحديد الإطارات التي يجب الحفاظ عليها، ثم تأتي مرحلة الاختيار الداخلية للتخلص من الرموز الزائدة المكررة داخل الإطارات المختارة.

تظهر تحليلاتنا أهمية استراتيجية التنوع للاختيار بين الإطارات، مما يضمن تغطية شاملة للمشهد. بينما يؤكد اختيار الرموز داخل الإطار على ضرورة التخفيف الواعي للطبقات، حيث يتم توجيه عملية الاختيار بواسطة إنتروبيا نمط الانتباه العالمي. يقدم نهجنا توازنًا فائقًا بين السرعة والدقة مقارنةً بالحلول الحالية.

أظهرت التجارب الواسعة أن هذه الاستراتيجية يمكن أن تُسرّع محولات الهندسة البصرية بأكثر من 85% عند معالجة مشاهد تحتوي على 500 صورة، مع الحفاظ أو حتى تحسين الأداء الأساسي. هذا يشير إلى الدور الحاسم لاستراتيجية اختيار الرموز في تطبيقات محولات الهندسة البصرية المستقبلة. لمزيد من التفاصيل، يمكنكم زيارة موقع مشروعنا على الإنترنت.