أصبح توظيف التعلم الآلي في التطبيقات البصرية أمراً ملحاً، ومع التطورات المستمرة في هذا المجال، تظهر تقنيات جديدة تعد بتحقيق تحسينات هائلة. من بين هذه التقنيات، نجد AdaMerge، الذي يعد بمثابة ثورة في دمج الرموز (Token Merging) في مراحل التعلم الآلي.

يُعتبر التحدي الرئيسي الذي يواجه استخدام موديلات Vision Transformers (ViTs) هو الكلفة التربيعية (Quadratic Cost) للاهتمام الذاتي (Self-Attention). إن ذلك يشكل عقبة كبيرة أمام التطبيق العملي لتلك النماذج. ومن هنا، ظهرت أبحاث جادة تعمل على تقليل عدد الرموز المستخدمة، وكان من بين الناجحين في هذا المجال تقنية دمج الرموز.

لكن آلية الدمج التقليدية كانت تستند على فرضية غير مبررة حول تكافؤ الرموز، مما يعرض المعلومات الحيوية للخطر، خصوصاً في الرموز عالية الأهمية. هنا يأتي ابتكار AdaMerge، والذي يعتمد على آليتين متكاملتين لتحسين هذه العملية. الأولى هي "تشابه الوزن المهم" (Salience-Weighted Similarity) والتي تستخدم مركزية ارتباط المميزات لتعكس أهمية الرموز، مما يكفل أن تساهم الرموز الأساسية بشكل أكبر في التمثيل المدمج.

الثانية تشمل استخدام "كثافة الدمج المتكيفة" (Adaptive Merging Intensity)، التي تعتمد على إحصائيات التشابه على مستوى الطبقات لضبط عدد الرموز المدمجة وفقاً لحدة التكرار في البيانات. وقد أثبتت التجارب أن AdaMerge تتفوق باستمرار على تقنيات دمج الرموز الأخرى، حيث لا تتجاوز خسارة الدقة -1.06% عند التشغيل على مستوى FLOPs يصل إلى 13.4G.

باختصار، تُعد AdaMerge أول من يجمع بين تشابه الوزن المهم والتقليل المتكيف على مستوى الطبقات في إطار دمج الرموز، مما يعزز كفاءة نماذج Vision Transformers ويعتبر إنجازًا في توفير الأداء والسرعة دون الحاجة للتدريب.