اكتشف كفاءة Kaczmarz Linear Attention: ثورة في نمذجة السياقات الطويلة!

تعتبر نمذجة السياقات الطويلة (Long-context language modeling) من التحديات الرئيسية التي تواجه نماذج التسلسل الحديثة، ومع ذلك فإن تكلفة الانتباه في نماذج Transformer تجعل من الصعب توسيع نطاق الاستخدام بشكل فعّال. هنا تبرز تقنية Kaczmarz Linear Attention (KLA) كحل مبتكر يقدم طريقة جديدة لمعالجة هذه التحديات.

تعمل النماذج المتكررة الخطية (Linear recurrent models) على حل هذه النقطة الحرجة من خلال ضغط السياق إلى حالة ثابتة الحجم، مما يجعل قواعد نسيان، كتابة، وتحرير المعلومات نقطة محورية في تصميمها. في هذا الإطار، يقدم Gated DeltaNet (GDN) مزيجًا من تآكل الحالة مع كتابات متبقية تتبع قاعدة دلتة، مع استخدام معامل قابل للتعلم لتحقيق توازن بين النسيان وحجم التحديث.

ومع ذلك، عادة ما يتم تعلم هذا المعامل بشكل تجريبي بدلاً من اشتقاقه من الهدف الأساسي، مما قد يؤدي إلى حجم تحديث غير مثالي. لذا نعيد النظر في الهدف الخاص بالانحدار عبر الإنترنت الذي يستند إليه GDN، مستلهمين من طريقة الإسقاط Kaczmarz، لنشتق حجم خطوة ديناميكية معطاة بواسطة المعادلة: $\beta_t = \eta_t / (\|k_t\|_2^2 + \epsilon)$ لتحديثات المتبقي.

تمثل Kaczmarz Linear Attention (KLA) تعديلًا أحادي البعد لـ GDN، بحيث تحافظ على شكل الحالة، وتستخدم البوابات، وتستفيد من التكرار الخطي، وتدعم خوارزمية متوازية. عند العمل على نطاق 0.4B مع ميزانية 1B رمز، حققت KLA أدنى مستوى من تعقيد التحقق من الصحة بين النماذج الزمنية الخطيّة الباسلة التي تم تقييمها، حيث كان 8.09 مقابل 8.50 لـ GDN، وظلت مستقرة حتى 65،000 رمز.

عند أداء مهام محددة، حققت KLA 100% في استرجاع "إبرة واحدة في كومة قش"، وحققت تحسينًا مضاعفًا يبلغ 8 مرات في الاسترجاع التعاوني بعدد استعلامات متعددة، متفوقة على GDN بمعدل تحسين 7.03 نقطة، كما قدمت معدل فك تشفير أعلى بـ 2.1 مرة عند استخدام سياق 32K.

تشير هذه النتائج إلى أن معامل Kaczmarz المتوازن وفقًا لمعيار المفتاح هو محور تصميم أولي لنماذج تسلسل قاعدة الدلتا؛ فهو يحسن الدقة، والتوسع، وكفاءة فك التشفير دون تغيير الحالة المتكررة أو نواة الأجهزة.

اكتشف كفاءة Kaczmarz Linear Attention: ثورة في نمذجة السياقات الطويلة!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

اكتشفوا AntAngelMed: نموذج لغوي طبي مذهل بـ 103 مليار معلمة مفتوح المصدر!

تعلم غير تقليدي: هل يعتمد الذكاء الاصطناعي على الهيكليات أم الصدفة؟

صدى المعرفة: كيف تعزز نماذج اللغة مشاعرنا في اتخاذ القرارات!