في عصر الذكاء الاصطناعي، تظل نماذج التحويلات البصرية (Vision Transformers) خياراً مفضلاً في تطبيقات التعرف على الصور. ومع ذلك، يظل التساؤل حول مدى عمق هذه النماذج وكيف يمكن تكرار العمليات الحسابية داخلها موضوعًا مثيرًا للبحث. هنا يأتي دور دراسة حديثة قدمت نموذج bViT، الذي يعتمد على استخدام كتلة واحدة من التحويلات بشكل متكرر لتحسين أداء النموذج.

يعمل نموذج bViT على معالجة الصور من خلال تطبيق كتلة تحويل واحدة بشكل متكرر، مما يحافظ على الهيكل التكراري للنموذج العميق، ويزيل الحاجة إلى تكديس الكتل المتعددة. وقد أظهرت التجارب على مجموعة بيانات ImageNet-1K أن أداء نموذج bViT-B، والذي يتضمن 12 خطوة، يقدم دقة مشابهة لنموذج ViT-B التقليدي، ولكن مع تقليل كبير في عدد المعلمات المطلوبة.

من المثير للاهتمام أن الأداء التكراري يتحسن مع زيادة عرض التمثيل، حيث أن النماذج الأكثر عرضًا من bViT يمكن أن تستعيد الأداء العالي للنماذج التقليدية بشكل أفضل مقارنة بالنماذج الضيقة. يعزى هذا السلوك إلى ما يعرف بتعدد العمق الضمني، حيث تعبر البلوك المشتركة عن حسابات مختلفة تعتمد على الخطوات، مما يجعل النموذج أكثر كفاءة.

علاوة على ذلك، تبين أن نموذج bViT قادر على نقل التعلم بشكل فعال نحو المهام التالية، مما يجعله خيارًا واعدًا لمزيد من التطبيقات. وكشفت التحليلات الميكانيكية لأنشطة النموذج وتركيز الانتباه أنك تتغير سلوكيات الكتلة المشتركة عبر الخطوات التكرارية، بدلاً من مجرد تكرار نفس العمليات.

تقدم هذه النتائج insights قيمة حول كيفية تصميم نماذج فعالة تعتمد على تكرار البلوك، مما يفتح آفاق جديدة للبحث والتطوير في مجال رؤية الكمبيوتر. هل أنتم متحمسون لتطبيقات هذه التقنية الجديدة؟