في عالم الذكاء الاصطناعي، يعتبر [التعلم العميق](/tag/[التعلم](/tag/التعلم)-العميق) واحدًا من أكثر المجالات إثارة وتطورًا. ومع ازدياد الاعتماد على [نموذج المحولات](/tag/[نموذج](/tag/نموذج)-[المحولات](/tag/المحولات)) ([Transformers](/tag/transformers)) في [معالجة اللغات](/tag/معالجة-[اللغات](/tag/اللغات)) الطبيعية، يُصبح [فهم](/tag/فهم) كيفية [عمل](/tag/عمل) هذه [النماذج](/tag/النماذج) أساسيًا لتحقيق نتائج أفضل. لاحظ الباحثون أن [المحولات](/tag/المحولات) تؤدي أداءً دقيقًا في [استنتاجات احتمالية](/tag/[استنتاجات](/tag/استنتاجات)-[احتمالية](/tag/احتمالية)) معقدة، ولكن ما [آليات](/tag/آليات) هذه الديناميكيات؟
سبتمبر الماضي، قدَّم الباحثون [دراسة](/tag/دراسة) رائدة توضح كيف تؤثر [تقنيات](/tag/تقنيات) [التدريب](/tag/التدريب) [عبر](/tag/عبر) [قانون](/tag/قانون) [التقاطع](/tag/التقاطع) (Cross-Entropy) على إعادة تشكيل درجات الاهتمام ([Attention](/tag/attention) Scores) والمتجهات القيمية (Value Vectors) في [محولات](/tag/محولات) الاهتمام.
في هذه الدراسة، تم تقديم [قانون](/tag/قانون) [توجيه](/tag/توجيه) قائم على المزايا (Advantage-based Routing Law) للصيغ الرياضية المستخدمة في [توجيه](/tag/توجيه) الاهتمام، مما يتيح للنموذج [تحسين](/tag/تحسين) دقته مع كل عملية [تعلم](/tag/تعلم) جديدة. حيث تبرز [المعادلات](/tag/المعادلات) المقدمة دور [التحسين](/tag/التحسين) الإيجابي في إنشاء علاقة وثيقة بين [توجيه الاستفسارات](/tag/[توجيه](/tag/توجيه)-الاستفسارات) والقيم العالية.
من خلال [تنفيذ](/tag/تنفيذ) [محاكاة](/tag/محاكاة) مضبوطة، وجد الباحثون أن الديناميكيات المستخدمة في [تقنيات التعلم](/tag/[تقنيات](/tag/تقنيات)-[التعلم](/tag/التعلم)) لا تقتصر على [تحسين النتائج](/tag/[تحسين](/tag/تحسين)-النتائج) بل تساهم أيضاً في تشكيل [الهندسة](/tag/الهندسة) الهيكلية للنماذج، مما يدعم قدراتها على [استنتاج](/tag/استنتاج) النتائج في [سياقات](/tag/سياقات) متنوعة.
يوفر هذا [البحث](/tag/البحث) [صورة](/tag/صورة) موحدة تربط بين [تحسين الأداء](/tag/[تحسين](/tag/تحسين)-[الأداء](/tag/الأداء)) الهندسي والعملي، مما يسهم في [تحقيق](/tag/تحقيق) تقدمات كبيرة في توسيع نطاقات [النماذج اللغوية](/tag/[النماذج](/tag/النماذج)-اللغوية).
كيف تشكل الديناميكيات التدريجية للاهتمام الهندسة الداخلية للنماذج: استكشاف آلية التعلم في المحولات
تتعمق دراسة حديثة في كيفية تأثير تدريب التقاطع على إعادة تشكيل درجات الاهتمام في نموذج المحولات. الكشوفات الجديدة تقدم رؤى حول تكامل التعلم والعمارة الهندسية في الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
