تُعَد [نماذج المحولات](/tag/[نماذج](/tag/نماذج)-[المحولات](/tag/المحولات)) ([Transformers](/tag/transformers)) من أبرز [الابتكارات](/tag/الابتكارات) في عالم الذكاء الاصطناعي، حيث تقدم أداءً متفوقًا في العديد من المهام. ولكن، لماذا تنتظر هذه [النماذج](/tag/النماذج) آلاف الخطوات قبل أن تبدأ في [تحقيق](/tag/تحقيق) العمومية؟ في [دراسة](/tag/دراسة) جديدة، تم تسليط الضوء على العوامل التي تؤثر في هذه الظاهرة.
تشير [الأبحاث](/tag/الأبحاث) إلى أن التأخير الذي يحدث، والذي تم تفسيره سابقًا من خلال عدة جوانب مثل التقليل من الأبعاد أو ظهور الميزات، قد يغفل عن أحد الجوانب الأساسية: إذا تخلصت آلية [الانتباه](/tag/الانتباه) من عنصر مفيد، فلن تُستعاد تلك [المعلومات](/tag/المعلومات) في أي عملية حسابية لاحقة.
قمنا بصياغة [نظرية](/tag/نظرية) جديدة تؤكد أن آلية [الانتباه](/tag/الانتباه) تعمل كتوزيع [بايزي](/tag/بايزي) ضمن [الرسم البياني](/tag/الرسم-البياني) للمهام. وأثبتنا أن العمومية تتطلب شرطين منفصلين: القدرة الخاصة بنموذج الشبكة العصبية متعددة الطبقات ([MLP](/tag/mlp)) وفقًا لمعيار [Goldilocks](/tag/goldilocks) ونظرية بنيوية جديدة تتطلب من آلية [الانتباه](/tag/الانتباه) [تخصيص](/tag/تخصيص) وزن كافٍ لكل عنصر مفيد.
من خلال هذه التوجهات، تمكنا من [تفسير](/tag/تفسير) التأخير في العمومية على أنه تأخير في [الاستدلال](/tag/الاستدلال) البنيوي. في المراحل المبكرة من التدريب، تقوم [شبكات](/tag/شبكات) [MLP](/tag/mlp) بحفظ [البيانات](/tag/البيانات) من خلال [ميزات](/tag/ميزات) غير متناسقة، مما يؤدي إلى فقدان [المعلومات](/tag/المعلومات) الهامة، ويتطلب الأمر تقليل الوزن بشكل كافٍ لجعل [المعلومات](/tag/المعلومات) المفقودة قابلة للتعلم.
تظهر [التجارب](/tag/التجارب) المتعلقة بالمهام التسلسلية الهيكلية أن هذا التوجه الجديد يتفوق أو يساوي [تقنيات](/tag/تقنيات) تذاكر [بايزي](/tag/بايزي) المعروفة. هذه النتائج تفتح آفاقًا جديدة لفهم [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي) وكيفية [تحسين](/tag/تحسين) أدائها من خلال التركيز على البنية.
هل ترغب في أن تتعرف أكثر على كيفية الاستفادة من هذه الاكتشافات في مشاريعك القادمة؟ شاركنا آرائك في [التعليقات](/tag/التعليقات).
فهم التأثير البنيوي: كيف تحتاج نماذج المحولات (Transformers) إلى تذاكر بايزي (Bayesian Lottery Tickets) لتحقيق العمومية؟
تسليط الضوء على كيفية تأثير بنية نماذج المحولات في عملية التعلم العمومي. تكشف الأبحاث عن شروط جديدة يحتاجها هذا النوع من النماذج لتحقيق أداء مثالي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
