إن توسع استخدام نماذج Transformers في مجال الرؤية الحاسوبية ثلاثية الأبعاد يمثل واحدة من أهم التطورات التقنية الحديثة. مع تعزيز القدرة على التعامل مع المشاهد متعددة الرؤى، يصبح ترميز المواقع القائم على الكاميرا جزءًا حيويًا لتقديم إشارات فضائية ضرورية. من خلال استخدام معايير الكاميرا مثل المعلمات الخارجية (extrinsics) ومصفوفات العرض (projection matrices)، تم إدماج هذه التقنية بشكل ملحوظ في آليات الانتباه، مما يساعد في تحسين أداء النموذج.
ومع ذلك، أظهرت الأبحاث الأخيرة وجود مخاوف حقيقية تتعلق بأداء نماذج التوليد الجديدة للرؤى (Novel View Synthesis - NVS) خلال المراحل المتقدمة من التدريب. حيث عانت النماذج من حالة جمود في الأداء، مما أثر سلبًا على فعاليتها. من خلال هذه الورقة، يكتشف الباحثون سبب عنق الزجاجة في الأداء عند تكبير إعدادات التدريب ويقدمون حلاً مبتكرًا يعرف باسم "ترميز المواقع المنفصل (Decoupled Pose Positional Encoding - DPPE)".
تعمل تقنية DPPE على تفكيك معلومات الدوران والنقل، مما يسهم في تقليل الغموض أثناء تعريف مواقع الكاميرا، وبالتالي يؤدي إلى تدريب أكثر استقرارًا. أظهرت التقييمات الشاملة المتعلقة بمهام NVS أن هذه التقنية تعزز التدريب الطويل الأمد، حتى في إعدادات التدريب الكبيرة، وتحقق أداءً متميزًا في بيئات الاستقراء، مثل التعامل مع زيادة عدد زوايا العرض وسيناريوهات التكبير.
من الواضح أن DPPE تمثل خطوة جديدة نحو تحقيق توقعات أفضل في رؤية الحاسوب ثلاثية الأبعاد، وتوفر فضاءً لدراسات وتطبيقات مستقبلية. فمع كل هذه الابتكارات، ما هو تقييمكم لتطورات الذكاء الاصطناعي في معالجة الصور؟ شاركونا آرائكم في التعليقات!
إعادة التفكير في ترميز المواقع القائم على الكاميرا: كيف يُحدث DPPE ثورة في نماذج Transformers متعددة الرؤية!
تقدم ورقة بحثية جديدة مفهوم ترميز المواقع المنفصل (DPPE) لتحسين أداء نماذج Transformers في الرؤية الحاسوبية ثلاثية الأبعاد. يكشف الباحثون عن مشكلات الأداء المرتبطة بالترميز الحالي ويعرضون طرقًا مبتكرة لتحقيق تدريب مستقر.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
