تعتبر الشبكات البصرية (Vision Backbone Networks) دعامة أساسية في مجال الرؤية الحاسوبية (Computer Vision) الحديثة، حيث يسعى الباحثون باستمرار لتعزيز كفاءتها بما يعود بالنفع على مجموعة واسعة من التطبيقات المتنوعة. في حقل تقييم الكفاءة، يعتمد العديد من الباحثين على مقياس العمليات الحسابية المجمعة (MACs) كمعيار للتنبؤ بوقت التنفيذ.
ومع ذلك، تكشف دراسة جديدة عن عيوب هذا المقياس، خصوصاً في سياق الأجهزة القريبة (Edge Devices). من خلال مقارنة عدد MACs ووقت التنفيذ لعناصر التصميم المعمارية الشائعة، تم تحديد العوامل الرئيسية التي تسهم في تنفيذ فعال بشكل أكبر.
إثر هذه النتائج، تم تقديم نموذج LowFormer، الذي يمثل عائلة جديدة من الشبكات البصرية. يتميز LowFormer بتصميمات قصيرة ومعقدة تشمل تقنية Lowtention، التي تعد بديلاً خفيف الوزن لتقنية الانتباه الذاتي متعدد الرؤوس (Multi-Head Self-Attention). وقد أثبتت Lowtention كفاءتها العالية، حيث أدت إلى تحقيق نتائج متميزة على مجموعة بيانات ImageNet.
وعلاوة على ذلك، تم تقديم نسخة تعمل على وحدات معالجة الرسوميات القريبة (Edge GPU) من LowFormer، والتي تعزز السرعة مقارنةً بالنموذج الأساسي على الأجهزة القريبة وأجهزة الكمبيوتر المكتبية.
لقد أثبتت نماذج LowFormer قدرتها على تطبيق واسعة من خلال تقييمها على مجموعات بيانات أصغر للتصنيف، وأيضاً تكيفها مع المهام المستدامة مثل اكتشاف الكائنات، تقسيم الصورة، استرجاع الصور، وتتبع الكائنات البصرية.
تظهر النتائج أن نماذج LowFormer تحقق تسريعاً ملحوظاً عبر مختلف منصات الأجهزة مقارنةً بأحدث الشبكات المعمارية في السوق. يمكنكم العثور على الكود والنماذج المتاحة على موقع GitHub.
ابتكارات ثورية في تصميم بنية الشبكات البصرية: اكتشافات تتجاوز MACs!
تقدم ورقة بحثية جديدة حلولاً مبتكرة لتحسين كفاءة الشبكات البصرية الحديثة، من خلال تقديم نموذج LowFormer. هذا النموذج يعد بإنجازات مذهلة في سرعة التنفيذ ودقة النتائج. لا تفوتوا التفاصيل المثيرة حول هذا المشروع الثوري.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
