تعتبر الشبكات البصرية (Vision Backbone Networks) دعامة أساسية في مجال الرؤية الحاسوبية (Computer Vision) الحديثة، حيث يسعى الباحثون باستمرار لتعزيز كفاءتها بما يعود بالنفع على مجموعة واسعة من التطبيقات المتنوعة. في حقل تقييم الكفاءة، يعتمد العديد من الباحثين على مقياس العمليات الحسابية المجمعة (MACs) كمعيار للتنبؤ بوقت التنفيذ.

ومع ذلك، تكشف دراسة جديدة عن عيوب هذا المقياس، خصوصاً في سياق الأجهزة القريبة (Edge Devices). من خلال مقارنة عدد MACs ووقت التنفيذ لعناصر التصميم المعمارية الشائعة، تم تحديد العوامل الرئيسية التي تسهم في تنفيذ فعال بشكل أكبر.

إثر هذه النتائج، تم تقديم نموذج LowFormer، الذي يمثل عائلة جديدة من الشبكات البصرية. يتميز LowFormer بتصميمات قصيرة ومعقدة تشمل تقنية Lowtention، التي تعد بديلاً خفيف الوزن لتقنية الانتباه الذاتي متعدد الرؤوس (Multi-Head Self-Attention). وقد أثبتت Lowtention كفاءتها العالية، حيث أدت إلى تحقيق نتائج متميزة على مجموعة بيانات ImageNet.

وعلاوة على ذلك، تم تقديم نسخة تعمل على وحدات معالجة الرسوميات القريبة (Edge GPU) من LowFormer، والتي تعزز السرعة مقارنةً بالنموذج الأساسي على الأجهزة القريبة وأجهزة الكمبيوتر المكتبية.

لقد أثبتت نماذج LowFormer قدرتها على تطبيق واسعة من خلال تقييمها على مجموعات بيانات أصغر للتصنيف، وأيضاً تكيفها مع المهام المستدامة مثل اكتشاف الكائنات، تقسيم الصورة، استرجاع الصور، وتتبع الكائنات البصرية.

تظهر النتائج أن نماذج LowFormer تحقق تسريعاً ملحوظاً عبر مختلف منصات الأجهزة مقارنةً بأحدث الشبكات المعمارية في السوق. يمكنكم العثور على الكود والنماذج المتاحة على موقع GitHub.