تُعَد نماذج المحولات (Transformers) من أبرز الابتكارات في عالم الذكاء الاصطناعي، حيث تقدم أداءً متفوقًا في العديد من المهام. ولكن، لماذا تنتظر هذه النماذج آلاف الخطوات قبل أن تبدأ في تحقيق العمومية؟ في دراسة جديدة، تم تسليط الضوء على العوامل التي تؤثر في هذه الظاهرة.
تشير الأبحاث إلى أن التأخير الذي يحدث، والذي تم تفسيره سابقًا من خلال عدة جوانب مثل التقليل من الأبعاد أو ظهور الميزات، قد يغفل عن أحد الجوانب الأساسية: إذا تخلصت آلية الانتباه من عنصر مفيد، فلن تُستعاد تلك المعلومات في أي عملية حسابية لاحقة.
قمنا بصياغة نظرية جديدة تؤكد أن آلية الانتباه تعمل كتوزيع بايزي ضمن الرسم البياني للمهام. وأثبتنا أن العمومية تتطلب شرطين منفصلين: القدرة الخاصة بنموذج الشبكة العصبية متعددة الطبقات (MLP) وفقًا لمعيار Goldilocks ونظرية بنيوية جديدة تتطلب من آلية الانتباه تخصيص وزن كافٍ لكل عنصر مفيد.
من خلال هذه التوجهات، تمكنا من تفسير التأخير في العمومية على أنه تأخير في الاستدلال البنيوي. في المراحل المبكرة من التدريب، تقوم شبكات MLP بحفظ البيانات من خلال ميزات غير متناسقة، مما يؤدي إلى فقدان المعلومات الهامة، ويتطلب الأمر تقليل الوزن بشكل كافٍ لجعل المعلومات المفقودة قابلة للتعلم.
تظهر التجارب المتعلقة بالمهام التسلسلية الهيكلية أن هذا التوجه الجديد يتفوق أو يساوي تقنيات تذاكر بايزي المعروفة. هذه النتائج تفتح آفاقًا جديدة لفهم نماذج الذكاء الاصطناعي وكيفية تحسين أدائها من خلال التركيز على البنية.
هل ترغب في أن تتعرف أكثر على كيفية الاستفادة من هذه الاكتشافات في مشاريعك القادمة؟ شاركنا آرائك في التعليقات.
فهم التأثير البنيوي: كيف تحتاج نماذج المحولات (Transformers) إلى تذاكر بايزي (Bayesian Lottery Tickets) لتحقيق العمومية؟
تسليط الضوء على كيفية تأثير بنية نماذج المحولات في عملية التعلم العمومي. تكشف الأبحاث عن شروط جديدة يحتاجها هذا النوع من النماذج لتحقيق أداء مثالي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
