تُعتبر نماذج المحولات البصرية الهجومية (Spiking Vision Transformers - SViT) نماذج واعدة تنتمي لفئة نماذج رؤية الآلة (Vision Models) ذات استهلاك منخفض للطاقة، حيث تحقق أداءً استثنائيًا في المهام البصرية. ومع ذلك، يعيق حجمها الكبير نشر هذه النماذج على منصات مدمجة ذات موارد محدودة، مما يبرز الحاجة إلى تقنيات تقليل حجم النموذج (Model Compression).
تُعتبر تقنية التقليم (Pruning) واحدة من أبرز أساليب تقليل حجم النماذج، ولكن الأعمال الحالية تتبنى تقنيات تقليم غير منظمة، التي تتطلب هياكل دائرية متخصصة لتناسب أنماط الفراغ لأقصى فائدة، مما يجعل هذا النهج غير قابل للتوسع.
لحل هذه المشكلة، تم اقتراح PSViT، المنهجية الجديدة التي تسمح بإجراء التقليم المنظم لنماذج SViT، مما يُيسر تسريع استدلالها باستخدام البنى التحتية الحاسوبية الموجودة على نطاق واسع. تعتمد PSViT على عدة خطوات رئيسية تشمل: تقليم مرشحات القنوات بشكل موحد لإزالة الأوزان غير المهمة، تحليل الحساسية لتقييم تأثير تقليم القنوات على دقة النموذج وحجمه، بالإضافة إلى تقليم دقيق للقنوات استناداً إلى تحليل الحساسية وبنية الشبكة.
أظهرت النتائج التجريبية أن PSViT تحقق توفيرًا في الذاكرة بنسبة 22.4% من خلال تقليم لمرة واحدة، مع الحفاظ على دقة عالية ضمن 3% من النموذج الأصلي غير المقلم (73.3%) على مجموعة بيانات ImageNet-1K. كما تبرز النتائج دور PSViT في تمكين نشر نماذج SViT بشكل فعال في التطبيقات ذات الموارد المحدودة.
إن تطور PSViT يُعزز الابتكار في مجال الذكاء الاصطناعي، مما يتيح لنا الاستفادة من نماذج المحولات البصرية بشكل أوسع. ما رأيكم في هذا التطور؟ شاركونا في التعليقات!
PSViT: استراتيجية مبتكرة لتقليل حجم نماذج المحولات البصرية الهجومية
تقدم PSViT منهجية جديدة لخفض حجم نماذج المحولات البصرية الهجومية (SViT)، مما يسهل استخدامها في التطبيقات ذات الموارد المحدودة. النتائج تشير إلى توفير يصل إلى 22.4% في الذاكرة مع الحفاظ على دقة عالية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
