في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) وتكنولوجيا [الرؤية](/tag/الرؤية) الحاسوبية، يُعتبر [التعرف على المواقع](/tag/[التعرف](/tag/التعرف)-على-المواقع) البصرية (Visual Place [Recognition](/tag/recognition) - VPR) بمثابة إحدى التحديات الرئيسية التي تواجه [الباحثين](/tag/الباحثين). يهدف VPR إلى مطابقة [الصورة](/tag/الصورة) الاستعلامية مع [صور](/tag/صور) مرجعية لنفس الموقع ضمن [قاعدة بيانات](/tag/قاعدة-[بيانات](/tag/بيانات)) ضخمة. في السنوات الأخيرة، اعتمدت الأساليب الحديثة على [نماذج](/tag/نماذج) "[Vision Transformers](/tag/vision-transformers)" (ViTs) كنماذج أساسية لاستخراج الميزات على مستوى القطع، وهو ما يُظهر [مقاومة](/tag/مقاومة) لظروف الزوايا والإضاءة والتغيرات الموسمية.
ومع ذلك، نجد أن معظم الطرق الحالية لتجميع الميزات تقوم بتوحيد تجمعات الرموز غير مدركة أن كل مجموعة تحمل أنماطًا مكانية أو [دلالية](/tag/دلالية) مختلفة، مما يؤثر على [أداء](/tag/أداء) VPR بشكل غير متساوٍ. لتجاوز هذه القيود، تم [اقتراح](/tag/اقتراح) [نموذج](/tag/نموذج) "Weighted Aggregated Descriptor" ([WeiAD](/tag/weiad)) الذي يخصص أوزانًا للاحتشاءات أثناء عملية التجميع، مما ينتج عنه [تمثيلات عالمية](/tag/[تمثيلات](/tag/تمثيلات)-عالمية) أكثر تمييزًا ودقة.
لكن [الدقة](/tag/الدقة) ليست سوى جزء من القصة، فنحن بحاجة أيضاً إلى أخذ وقت الاسترجاع في الاعتبار، والذي يعد قضية حيوية خاصة في [التطبيقات](/tag/التطبيقات) الكبيرة والأجهزة المحدودة الموارد. بينما تركزت [الأعمال](/tag/الأعمال) السابقة على تقليل وقت الاسترجاع عن طريق ضغط التوصيفات العالمية، وقد أهملت تكلفة استخراج الميزات، وهي قضية تفاقمت بسبب استخدام [نماذج](/tag/نماذج) [ViT](/tag/vit).
لذا؛ تم تقديم "[WeiToP](/tag/weitop)"، وهو إطار [عمل](/tag/عمل) يركز على VPR يهدف إلى تقليل تكلفة استخراج الميزات من خلال [تقنية](/tag/تقنية) [التقطيع الذاتي](/tag/التقطيع-الذاتي) (self-distillation)، حيث تراقب أهمية الرموز الناتجة عن التجميع وحدة خفيفة الوزن تهدف إلى [تصفية الرموز](/tag/[تصفية](/tag/تصفية)-الرموز) المرتبطة بفكرة الالتقاط. هذه [التقنية](/tag/التقنية) تمكّن من القيام بالتصفية أثناء وقت الاستنتاج، مما يضمن ضبطًا مرنًا ومناسبًا لتوازن [الدقة](/tag/الدقة) والكفاءة دون الحاجة لتدريب إضافي.
بعد مرحلة [تدريب](/tag/تدريب) مشتركة واحدة، يُمكن لـ [WeiToP](/tag/weitop) من إجراء عمليات [تصفية](/tag/تصفية) للرموز عند وقت الاستنتاج، مما يُتيح تحكمًا مرنًا وفوريًا في التوازن بين [الدقة](/tag/الدقة) والكفاءة. من المثير للاهتمام أن [WeiToP](/tag/weitop) يتفوق على طرق التصفية الأخرى المستندة إلى مهام [الرؤية](/tag/الرؤية) العامة. هل تتصورون مستقبلًا تكنولوجيًا أكثر [كفاءة](/tag/كفاءة) [عبر](/tag/عبر) هذه [الابتكارات](/tag/الابتكارات)؟
العثور على الأماكن بصريًا: الابتكارات في التعرف على المواقع عبر الوزن والتنظيم الديناميكي!
تقدمت خوارزميات التعرف على المواقع البصرية من خلال تقديم نموذج جديد يُعرف بـ Weighted Aggregated Descriptor (WeiAD)، والذي يعمل على تحسين دقة التعرف مع تقليل وقت الاسترجاع. إلى جانب ذلك، تم تقديم إطار عمل يُسمى WeiToP يساهم في خفض تكاليف استخراج الميزات بشكل فعال.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
