إن توسع استخدام نماذج Transformers في مجال الرؤية الحاسوبية ثلاثية الأبعاد يمثل واحدة من أهم التطورات التقنية الحديثة. مع تعزيز القدرة على التعامل مع المشاهد متعددة الرؤى، يصبح ترميز المواقع القائم على الكاميرا جزءًا حيويًا لتقديم إشارات فضائية ضرورية. من خلال استخدام معايير الكاميرا مثل المعلمات الخارجية (extrinsics) ومصفوفات العرض (projection matrices)، تم إدماج هذه التقنية بشكل ملحوظ في آليات الانتباه، مما يساعد في تحسين أداء النموذج.

ومع ذلك، أظهرت الأبحاث الأخيرة وجود مخاوف حقيقية تتعلق بأداء نماذج التوليد الجديدة للرؤى (Novel View Synthesis - NVS) خلال المراحل المتقدمة من التدريب. حيث عانت النماذج من حالة جمود في الأداء، مما أثر سلبًا على فعاليتها. من خلال هذه الورقة، يكتشف الباحثون سبب عنق الزجاجة في الأداء عند تكبير إعدادات التدريب ويقدمون حلاً مبتكرًا يعرف باسم "ترميز المواقع المنفصل (Decoupled Pose Positional Encoding - DPPE)".

تعمل تقنية DPPE على تفكيك معلومات الدوران والنقل، مما يسهم في تقليل الغموض أثناء تعريف مواقع الكاميرا، وبالتالي يؤدي إلى تدريب أكثر استقرارًا. أظهرت التقييمات الشاملة المتعلقة بمهام NVS أن هذه التقنية تعزز التدريب الطويل الأمد، حتى في إعدادات التدريب الكبيرة، وتحقق أداءً متميزًا في بيئات الاستقراء، مثل التعامل مع زيادة عدد زوايا العرض وسيناريوهات التكبير.

من الواضح أن DPPE تمثل خطوة جديدة نحو تحقيق توقعات أفضل في رؤية الحاسوب ثلاثية الأبعاد، وتوفر فضاءً لدراسات وتطبيقات مستقبلية. فمع كل هذه الابتكارات، ما هو تقييمكم لتطورات الذكاء الاصطناعي في معالجة الصور؟ شاركونا آرائكم في التعليقات!