في عالم الذكاء الاصطناعي، أصبحت النماذج التحولية (Transformers) الخيار القياسي للعديد من المهام، حيث يلعب تشكيل الانتباه القائم على الاستعلام (Query) والمفتاح (Key) والقيمة (Value) دورًا أساسيًا. رغم ذلك، لا يزال الفهم العميق لدور كل من هذه الفقرات الثلاثة وتأثير استبعاد بعضها غامضًا.
في دراسة شاملة، تم تقييم ثلاثة قيود لمشاركة الفقرات:
أ) Q-K=V (مفتاح وقيمة مشتركة)،
ب) Q=K-V (استعلام ومفتاح مشترك)،
ج) Q=K=V (فقرة واحدة).
وقد أسفرت المتغيرات الأخيرة عن خرائط انتباه متناسقة. لذا، نستكشف أيضًا الانتباه غير المتناسق من خلال التحولات الموضعية الثنائية الأبعاد.
شملت التجارب التي تم إجراؤها مهام صناعية ورؤية (MNIST، CIFAR، TinyImageNet، والنماذج الشاذة) ونمذجة اللغة (نماذج ببارامترات 300 مليون و1.2 مليار على 10 مليارات رمز)، ووجدنا أن نماذجنا تؤدي بشكل مماثل أو أحيانًا أفضل من نموذج QKV التقليدي.
في نمذجة اللغة، يحقق نموذج Q-K=V مشاركة الفقرة تقليلًا بنسبة 50% في ذاكرة التخزين المؤقت للقيم (KV) مع تدهور بسيط بنسبة 3.1% في نسبة التعقيد. المهم أن مشاركة الفقرة تعتبر مكملة لمشاركة الرؤوس (GQA/MQA): إذ يحقق دمج Q-K=V مع GQA-4 تقليلًا في التخزين المؤقت بنسبة 87.5%، في حين أن Q-K=V + MQA يحقق 96.9%، مما يمكّن من تقديم استنتاج عملي على الأجهزة.
أظهرت نتائجنا أن Q-K=V تحافظ على الجودة لأن المفاتيح والقيم يمكن أن تشغل مساحات تمثيلية متشابهة وأن الانتباه يعمل ضمن نظام منخفض الرتبة، بينما يكسر Q=K-V اتجاهية الانتباه.
باختصار، تصف نتائج هذه الدراسة مشاركة الفقرات كحالة غير مستكشفة بشكل كافٍ من ربط الأوزان في الانتباه، مع فوائد مباشرة وقابلة للقياس في استهلاك الذاكرة، وهو ما يعد قيمة مضافة كبيرة لنشر التطبيقات على الأجهزة الحافة. لمزيد من التفاصيل، الشيفرة متاحة للجمهور عبر GitHub.
هل تحتاج النماذج التحولية إلى ثلاث فقرات؟ دراسة شاملة حول متغيرات QKV
تستعرض هذه الدراسة دور الفقرات الثلاث في نماذج التحويل وتأثير حذف بعضها على الأداء. نتائج مثيرة تُظهر أن دمج الفقرات يمكن أن يقلل من استهلاك الذاكرة مع الحفاظ على الجودة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
