تواجه نماذج الرؤية اللغوية (Vision-Language Models - VLMs) تحديات كبيرة في معالجة تحديد المواقع البصرية والكشف عن الأشياء، حيث يتم تحويل هذه العمليات إلى مشكلة توليد رموز بطريقة تسلسلية. في هذا السياق، تمثل كل صندوق ثنائي الأبعاد تحديًا يتم تكسيرها إلى رموز أحادية البعد تُدار بشكل مستقل، مما يجعل الأداء عرضة للاختناقات في عملية الاستدلال.
لكن الآن، يأتي الابتكار الجديد تحت اسم LocateAnything، والذي يتيح إطار عمل متكامل لتفعيل كل من الجمع بين الرؤية واللغة وكشف الأشياء، مستفيدًا من تقنية فك الرموز بالصناديق بالتوازي (Parallel Box Decoding - PBD). بدلًا من التعامل مع الرموز بشكل فردي، يقوم LocateAnything بفك رموز العناصر الهندسية مثل الصناديق والعناصر النقطية كوحدات ذرية في خطوة واحدة، مما يحافظ على التماسك الهندسي داخل الصناديق ويفتح آفاقًا كبيرة للمعالجة بالتوازي.
أظهرت الدراسات أن تقنية PBD تعزز من سرعة التشفير ودقة تحديد المواقع بشكل ملحوظ. لزيادة دقة البيانات، تم تطوير محرك بيانات قابل للتوسع وأُطلق عليه LocateAnything-Data، والذي يتضمن أكثر من 138 مليون عينة تدريب، مما يزيد التنوع في البيانات المطلوبة لتحقيق تحديد المواقع بدقة عالية.
تظهر التقييمات الشاملة أن LocateAnything يدفع حدود السرعة والدقة، حيث يحقق تحسينات ملحوظة في سرعة فك الرموز بجودة تحدي المواقع العالية عبر مجموعة متنوعة من الاختبارات. تبرز النتائج فوائد التكامل فيما بين تقنية فك الرموز بالصناديق بالتوازي وبيانات التدريب واسعة النطاق، مما يسهل على المستخدمين تحقيق تحديد بصري دقيق وفعّال.
LocateAnything: ثورة جديدة في رؤية اللغة مع فك رموز الصناديق بالتوازي!
تقدم تقنية LocateAnything إطارًا ثوريًا للجمع بين الرؤية واللغة، من خلال استخدام فك رموز الصناديق بالتوازي، مما يعزز السرعة والدقة في تحديد المواقع. تعرف على كيفية تحقيق هذا الابتكار للمزيد من الكفاءة في نماذج الرؤية اللغوية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
