تُعَد [نماذج المحولات](/tag/[نماذج](/tag/نماذج)-[المحولات](/tag/المحولات)) ([Transformers](/tag/transformers)) من أبرز [الابتكارات](/tag/الابتكارات) في عالم الذكاء الاصطناعي، حيث تقدم أداءً متفوقًا في العديد من المهام. ولكن، لماذا تنتظر هذه [النماذج](/tag/النماذج) آلاف الخطوات قبل أن تبدأ في [تحقيق](/tag/تحقيق) العمومية؟ في [دراسة](/tag/دراسة) جديدة، تم تسليط الضوء على العوامل التي تؤثر في هذه الظاهرة.

تشير [الأبحاث](/tag/الأبحاث) إلى أن التأخير الذي يحدث، والذي تم تفسيره سابقًا من خلال عدة جوانب مثل التقليل من الأبعاد أو ظهور الميزات، قد يغفل عن أحد الجوانب الأساسية: إذا تخلصت آلية [الانتباه](/tag/الانتباه) من عنصر مفيد، فلن تُستعاد تلك [المعلومات](/tag/المعلومات) في أي عملية حسابية لاحقة.

قمنا بصياغة [نظرية](/tag/نظرية) جديدة تؤكد أن آلية [الانتباه](/tag/الانتباه) تعمل كتوزيع [بايزي](/tag/بايزي) ضمن [الرسم البياني](/tag/الرسم-البياني) للمهام. وأثبتنا أن العمومية تتطلب شرطين منفصلين: القدرة الخاصة بنموذج الشبكة العصبية متعددة الطبقات ([MLP](/tag/mlp)) وفقًا لمعيار [Goldilocks](/tag/goldilocks) ونظرية بنيوية جديدة تتطلب من آلية [الانتباه](/tag/الانتباه) [تخصيص](/tag/تخصيص) وزن كافٍ لكل عنصر مفيد.

من خلال هذه التوجهات، تمكنا من [تفسير](/tag/تفسير) التأخير في العمومية على أنه تأخير في [الاستدلال](/tag/الاستدلال) البنيوي. في المراحل المبكرة من التدريب، تقوم [شبكات](/tag/شبكات) [MLP](/tag/mlp) بحفظ [البيانات](/tag/البيانات) من خلال [ميزات](/tag/ميزات) غير متناسقة، مما يؤدي إلى فقدان [المعلومات](/tag/المعلومات) الهامة، ويتطلب الأمر تقليل الوزن بشكل كافٍ لجعل [المعلومات](/tag/المعلومات) المفقودة قابلة للتعلم.

تظهر [التجارب](/tag/التجارب) المتعلقة بالمهام التسلسلية الهيكلية أن هذا التوجه الجديد يتفوق أو يساوي [تقنيات](/tag/تقنيات) تذاكر [بايزي](/tag/بايزي) المعروفة. هذه النتائج تفتح آفاقًا جديدة لفهم [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي) وكيفية [تحسين](/tag/تحسين) أدائها من خلال التركيز على البنية.

هل ترغب في أن تتعرف أكثر على كيفية الاستفادة من هذه الاكتشافات في مشاريعك القادمة؟ شاركنا آرائك في [التعليقات](/tag/التعليقات).