تسريع انتباه ترانسفورمر: التقنية الجديدة لتقليص تكاليف اختيار الرموز

تم تقديم تقنية مبتكرة تحقق تسريعاً ملحوظاً في اختيار الرموز في طبقات انتباه ترانسفورمر، مما يقلل من تكاليف العمليات بشكل كبير. من خلال آلية التدريج، يسهل نقل وتحديث مجموعة الرموز التمثيلية بين الطبقات.

في عالم تكنولوجيا الذكاء الاصطناعي، يعد السرعة والكفاءة من العناصر الأساسية التي تؤثر على جودة الأداء. لذا، تم تقديم تقنية جديدة تعتمد على اختيار الرموز التدريجي (Cascade Token Selection) لتسريع انتباه ترانسفورمر (Transformer Attention) وتقليل تكاليف العمليات.

تقنية اختيار الرموز التقليدية تتطلب حساب مصفوفة غرام (Gram Matrix) بحجم $T imes T$ في كل طبقة، مما يمثّل تحدياً حقيقياً على صعيد التقنيات الحالية. بينما تقدم تقنية اختيارات الرموز التدريجي (ADA) حلاً مبتكراً من خلال تقليل هذه المصفوفة إلى $O(T r d)$ بدلاً من $O(T^2 d)$ لكل طبقة. وهذا يعني أنه يمكن معالجة عدد أقل من الرموز التمثيلية $r$ بشكل أكثر كفاءة، مما يساعد على تسريع العملية بشكل كبير.

تظهر النتائج الأولية على ثلاثة نماذج مختلفة (GPT-2 124M، GPT-J 6B، OPT 6.7B) وفورات تتراوح بين 22% إلى 63% في عمليات غرام، مع متوسط تداخل جاكارد (Jaccard Overlap) بين الطبقات يتراوح من 0.83 إلى 0.94.

من خلال هذه النتائج، يتضح أن مجموعة الرموز المفيدة تمثل خاصية هيكلية للمدخلات، مما يعني أن نفس الرموز تحمل معلومات غير زائدة تعبر عبر عمق الشبكة.

إن هذه الابتكارات تقدم فهماً أعمق لكيفية عمل الشبكات العصبية، مما يمهد الطريق لتطوير نماذج أكثر كفاءة وتخصصاً.

جاري تحميل التفاعلات...

تسريع انتباه ترانسفورمر: التقنية الجديدة لتقليص تكاليف اختيار الرموز

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

الذكاء الاصطناعي: حلاً مبتكراً لتخفيف ضغوط الخدمات الصحية في المملكة المتحدة!

ميتا تطلق NeuralBench: إطار عمل موحد لتقييم نماذج NeuroAI عبر 36 مهمة EEG و94 مجموعة بيانات!

OpenAI تكشف النقاب عن بروتوكول MRC: ثورة في الشبكات لأسطح المكتب الخارقة للذكاء الاصطناعي!