في عالم الذكاء الاصطناعي، تُعتبر نماذج التحويل (Transformers) من أبرز الابتكارات التي غيرت وجه التعلم الآلي. لكن ماذا لو أخبرناك أن هناك تطوراً جديداً يمكن أن يحدث ثورة في أدائها؟ أظهرت تحليلات جبرية حديثة أنه يمكن تعيين توقع الاستعلام (Query projection) $W_Q$ ليصبح هوية دون أن يؤثر سلباً على أداء النموذج.
السبب وراء ذلك هو أن الانتباه (Attention) يعتمد فقط على المصفوفات الناتجة من بيانات الإدخال $X$ من خلال الأجزاء $XW_Q, XW_K, XW_V$، مما يسمح بتحويلات القاعدة بأن تُمتص بواسطة الطبقات المجاورة وتُنتقل عبر الشبكة.
في دراسة جديدة، تم استبدال $W_Q$ بتعزيز غير خطي على شكل $Q(X) = X + f_ heta(X)$، حيث تمثل $f_ heta$ شبكة عصبية متعددة الطبقات (MLP) مع عدد من المعاملات. يُعتبر العنصر الهوية بمثابة مرساة غير خطية ترتكز على معرف مسبق جيد.
تظهر التجارب على نماذج بحجم GPT-3 تحسينات ثابتة على الأساسيات، مع تحسن بنسبة 2.40% في فقدان التحقق و6.81% في التعقيد، مما يؤكد فعالية هذه الاستراتيجية الجديدة. هذه النتائج تمهد الطريق لاستكشاف تعميمات على نطاق أكبر وعبر مجالات متعددة.
إذا كنت مهتماً بتطويرات الذكاء الاصطناعي، فلا تفوت هذه الإبداعات العلمية! ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
ثورة في نماذج التحويل: نحو استعلامات غير خطية تعزز الأداء!
تظهر الأبحاث الجديدة أن استبدال التوقعات الخطية لاستعلامات النماذج المعتمدة على المحولات يمكن أن يؤدي إلى تحسين ملحوظ في الأداء. استراتيجيات غير خطية تعد بتطورات مثيرة في الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
