تشهد تقنيات تحديد الموقع في الصور (In-Context Localization - ICL) تقدمًا ملحوظًا بفضل الابتكارات في نماذج الرؤية واللغة (Vision-Language Models - VLMs). ومن خلال سعيها لتحسين دقة تحديد المواقع، تسعى هذه التقنيات إلى تمكين المستخدمين من تحديد كائنات معينة ضمن صور استعلام باستخدام مجموعة صغيرة من الأمثلة الداعمة.
رغم الابتكارات السريعة، لا يزال تحقيق تحديد مواقع مستقل عن الفئة ومرتبط بصريًا يعد من التحديات المفتوحة. التطبيق العملي لهذه التقنية يعتبر بالغ الأهمية في العديد من المجالات مثل تحرير الصور والبحث البصري المخصص. ومع ذلك، فإن الطرق الحالية لا تزال هشة وتعتمد على إشراف الفئات بشكل صريح، مما يحد من تطبيقها في الإعدادات الواقعية التي تحتوي على كائنات غير مسماة.
في هذا السياق، قدم الباحثون إطارًا تدريبيًا من مرحلتين يركز على تحسين الانتباه بين صناديق الدعم وصور الاستعلام، دون الحاجة إلى إشراف الفئات. كما تم تحسين عملية تحديد المواقع باستخدام التعلم التعزيزي عبر مجموعة نسبية من تحسين السياسات (Group Relative Policy Optimization - GRPO) بهدف تقليل أخطاء التحديد بشكل مباشر.
تظهر التجارب أن نموذجًا يحتوي على 7 مليار معلمة، تم تدريبه باستخدام أهدافنا الجديدة، يتفوق على نماذج أكبر تصل إلى 72 مليار معلمة. وهذا يبرز أن الأهداف المتعلقة بتحديد المواقع في السياق يمكن أن تتجاوز الاعتماد على قياس الحجم وحده. كما تؤكد الاختبارات التفصيلية أهمية كل عنصر في النظام الجديد.
في ختام هذا الموضوع، نحن متحمسون لمعرفة كيف ستتطور هذه التقنيات الجديدة وتؤثر على رحلتنا في عالم الصور والذكاء الاصطناعي. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
تقنيات متقدمة لتحديد المواقع في الصور: تحسين واستخدام الذكاء الاصطناعي
تقدم دراسة جديدة إطار عمل مبتكر لتحسين تحديد المواقع في الصور باستخدام الذكاء الاصطناعي، مما يتجاوز القيود التقليدية التي تؤثر على دقة النماذج الحالية. هذا التقدم يعد خطوة هامة نحو تطبيقات متعددة مثل البحث البصري وتحرير الصور.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
