تعتبر نماذج محولات الرؤية (Vision Transformers - ViTs) من أهم الابتكارات في مجال الذكاء الاصطناعي، حيث تحقق أداءً قويًا ولكنها تواجه تحديات كبيرة بسبب تكاليفها الحاسوبية العالية الناتجة عن التعقيد الرباعي لاستخدام الانتباه الذاتي. وللتغلب على هذا التحدي، تم تطوير تقنيات تقليل الرموز مثل القص (pruning) والاندماج (merging)، ولكن غالبًا ما تهمل هذه التقنيات كيفية تطور التمثيلات عبر عمق الشبكة.
هنا يبرز نظام RAPID، الإطار الجديد لتحسين تقليل الرموز، والذي يتكيف مع الخصائص الطبقية للتمثيلات. تُعتبر المساهمة الرئيسية في هذا النظام هي استراتيجياته الثنائية: في الطبقات السطحية إلى المتوسطة، يستخدم RAPID مقياس تقليل متنبه إلى التضارب لتحديد الأنماط المحلية المبالغ في تمثيلها وإزالتها. ومع انتقال الميزات نحو مفاهيم دلالية عالمية في الطبقات الأعمق، ينتقل النظام إلى آلية اندماج تعتمد على الأهمية-التشابه (importance-similarity aware merging)، بحيث يستفيد من أوزان انتباه رموز التصنيف (CLS) لحماية الرموز الدلالية المهمة أثناء دمج الجيران الأقل أهمية.
أظهرت validate التجارب على مجموعة بيانات ImageNet-1K باستخدام بنيتي ViT وDeiT أن نظام RAPID يحقق دقة أفضل مقارنة بمستويات ضغط عالية، حيث سجل زيادة تصل إلى 4.29% في الدقة مقارنة بأساليب مثل ToMe وToFu في ظروف ضغط متطرفة.
يقدم RAPID نموذجًا خاليًا من التدريب لتحسين نماذج الرؤية من خلال موائمة استراتيجيات التقليل مع تطور الميزات الهرمي. هذه الابتكارات لا تعزز فقط كفاءة النماذج بل تفتح أيضًا آفاقًا جديدة في الذكاء الاصطناعي.
إذا كنت مهتمًا بعالم نماذج الرؤية والذكاء الاصطناعي، فما رأيك في هذا النظام الجديد؟ شاركنا برأيك في التعليقات!
تطور مذهل: نظام RAPID لتحسين أداء نماذج رؤية الكمبيوتر بذكاء ثوري!
يقدم نظام RAPID ثورة في تقنيات تحسين نماذج رؤية الكمبيوتر عبر تقليل عدد الرموز بطريقة ذكية تتناسب مع عمق الشبكة. يحقق النظام دقة أعلى بمعدلات ضغط متطرفة مقارنة بالأساليب التقليدية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
