في عالم تكنولوجيا الذكاء الاصطناعي، يعد السرعة والكفاءة من العناصر الأساسية التي تؤثر على جودة الأداء. لذا، تم تقديم تقنية جديدة تعتمد على اختيار الرموز التدريجي (Cascade Token Selection) لتسريع انتباه ترانسفورمر (Transformer Attention) وتقليل تكاليف العمليات.

تقنية اختيار الرموز التقليدية تتطلب حساب مصفوفة غرام (Gram Matrix) بحجم $T imes T$ في كل طبقة، مما يمثّل تحدياً حقيقياً على صعيد التقنيات الحالية. بينما تقدم تقنية اختيارات الرموز التدريجي (ADA) حلاً مبتكراً من خلال تقليل هذه المصفوفة إلى $O(T r d)$ بدلاً من $O(T^2 d)$ لكل طبقة. وهذا يعني أنه يمكن معالجة عدد أقل من الرموز التمثيلية $r$ بشكل أكثر كفاءة، مما يساعد على تسريع العملية بشكل كبير.

تظهر النتائج الأولية على ثلاثة نماذج مختلفة (GPT-2 124M، GPT-J 6B، OPT 6.7B) وفورات تتراوح بين 22% إلى 63% في عمليات غرام، مع متوسط تداخل جاكارد (Jaccard Overlap) بين الطبقات يتراوح من 0.83 إلى 0.94.

من خلال هذه النتائج، يتضح أن مجموعة الرموز المفيدة تمثل خاصية هيكلية للمدخلات، مما يعني أن نفس الرموز تحمل معلومات غير زائدة تعبر عبر عمق الشبكة.

إن هذه الابتكارات تقدم فهماً أعمق لكيفية عمل الشبكات العصبية، مما يمهد الطريق لتطوير نماذج أكثر كفاءة وتخصصاً.