هل تحتاج النماذج التحولية إلى ثلاث فقرات؟ دراسة شاملة حول متغيرات QKV

Q: ما هو موضوع مقال "هل تحتاج النماذج التحولية إلى ثلاث فقرات؟ دراسة شاملة حول متغيرات QKV"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "هل تحتاج النماذج التحولية إلى ثلاث فقرات؟ دراسة شاملة حول متغيرات QKV" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

في عالم الذكاء الاصطناعي، أصبحت النماذج التحولية (Transformers) الخيار القياسي للعديد من المهام، حيث يلعب تشكيل الانتباه القائم على الاستعلام (Query) والمفتاح (Key) والقيمة (Value) دورًا أساسيًا. رغم ذلك، لا يزال الفهم العميق لدور كل من هذه الفقرات الثلاثة وتأثير استبعاد بعضها غامضًا.

في دراسة شاملة، تم تقييم ثلاثة قيود لمشاركة الفقرات:
أ) Q-K=V (مفتاح وقيمة مشتركة)،
ب) Q=K-V (استعلام ومفتاح مشترك)،
ج) Q=K=V (فقرة واحدة).

وقد أسفرت المتغيرات الأخيرة عن خرائط انتباه متناسقة. لذا، نستكشف أيضًا الانتباه غير المتناسق من خلال التحولات الموضعية الثنائية الأبعاد.

شملت التجارب التي تم إجراؤها مهام صناعية ورؤية (MNIST، CIFAR، TinyImageNet، والنماذج الشاذة) ونمذجة اللغة (نماذج ببارامترات 300 مليون و1.2 مليار على 10 مليارات رمز)، ووجدنا أن نماذجنا تؤدي بشكل مماثل أو أحيانًا أفضل من نموذج QKV التقليدي.

في نمذجة اللغة، يحقق نموذج Q-K=V مشاركة الفقرة تقليلًا بنسبة 50% في ذاكرة التخزين المؤقت للقيم (KV) مع تدهور بسيط بنسبة 3.1% في نسبة التعقيد. المهم أن مشاركة الفقرة تعتبر مكملة لمشاركة الرؤوس (GQA/MQA): إذ يحقق دمج Q-K=V مع GQA-4 تقليلًا في التخزين المؤقت بنسبة 87.5%، في حين أن Q-K=V + MQA يحقق 96.9%، مما يمكّن من تقديم استنتاج عملي على الأجهزة.

أظهرت نتائجنا أن Q-K=V تحافظ على الجودة لأن المفاتيح والقيم يمكن أن تشغل مساحات تمثيلية متشابهة وأن الانتباه يعمل ضمن نظام منخفض الرتبة، بينما يكسر Q=K-V اتجاهية الانتباه.

باختصار، تصف نتائج هذه الدراسة مشاركة الفقرات كحالة غير مستكشفة بشكل كافٍ من ربط الأوزان في الانتباه، مع فوائد مباشرة وقابلة للقياس في استهلاك الذاكرة، وهو ما يعد قيمة مضافة كبيرة لنشر التطبيقات على الأجهزة الحافة. لمزيد من التفاصيل، الشيفرة متاحة للجمهور عبر GitHub.

هل تحتاج النماذج التحولية إلى ثلاث فقرات؟ دراسة شاملة حول متغيرات QKV

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة الذكاء الاصطناعي: كيف تُدخل المواقع المُولدة آلياً السعادة الزائفة على الإنترنت؟

جوجل تطلق ميزة الذكاء الشخصي جيمني في الهند: تجربة مخصصة في متناول يدك!

في أعقاب ثورة الذكاء الاصطناعي: Vercel تستعد للطرح العام بفضل زيادة الإيرادات