أظهرت [الأبحاث](/tag/الأبحاث) الجديدة حول [نماذج المحولات](/tag/[نماذج](/tag/نماذج)-[المحولات](/tag/المحولات)) ([Transformers](/tag/transformers)) المهتمة بالحسابات الجبرية أن هناك [تحولات](/tag/تحولات) حادة تحدث بين الذاكرة، والتعميم، والانهيار. ويبدو أن التلاشي ([Weight Decay](/tag/weight-decay)) يلعب دورًا حيويًا كمعامل [تحكم](/tag/تحكم) رئيسي لهذه الأنظمة. تم تقديم تقنيتين ميسورتين للتشخيص [عبر](/tag/عبر) الإنترنت تساعدان في [تتبع](/tag/تتبع) [ديناميكيات التدريب](/tag/[ديناميكيات](/tag/ديناميكيات)-[التدريب](/tag/التدريب)) من خلال تفعيل الانتباه، وهما متوسط تشابه الزوايا بين [رؤوس الانتباه](/tag/رؤوس-[الانتباه](/tag/الانتباه)) (Mean Pairwise [Attention](/tag/attention)-Head Cosine Similarity) والانحراف القياسي للالت entropy.
[عبر](/tag/عبر) إحدى عشر تجربة مختلفة وثلاث [مقاييس](/tag/مقاييس) [نماذج](/tag/نماذج) (من 0.82 مليون إلى 85 مليون بارامتر)، يسهم محور التلاشي في فصل الذاكرة، والتطور المعرفي، والانهيار بشكل واضح. وقد حدد [التحليل](/tag/التحليل) اللوجستي حدود الانتقال في [نموذج الذاكرة](/tag/[نموذج](/tag/نموذج)-[الذاكرة](/tag/الذاكرة)) إلى [التطوير](/tag/التطوير) عند [قيمة](/tag/قيمة) λ_c = 0.0158، مما يسلط الضوء على فعالية التلاشي كأداة تنبؤية دقيقة.
إن [التجارب](/tag/التجارب) الثلاثة [عبر](/tag/عبر) بنى مختلفة (مثل 4L [MLP](/tag/mlp) و4L [LSTM](/tag/lstm)) أثبتت [نجاح](/tag/نجاح) تكرار الانتقال الذي يتحكم فيه التلاشي، مع قيم λ_c مخصصة لكل [بناء](/tag/بناء). وعلى الرغم من أن هذه النتائج تستند إلى [نماذج](/tag/نماذج) [انتباه](/tag/انتباه) صغيرة، إلا أنها تفتح المجال لمزيد من التحقيقات في الديناميات المعقدة وراء تصرف [نموذج المحولات](/tag/[نموذج](/tag/نموذج)-[المحولات](/tag/المحولات)).
تأتي هذه النتائج كجزء من جهود مستمرة لفهم كيفية [تحسين](/tag/تحسين) [تدريب](/tag/تدريب) [نماذج](/tag/نماذج) الذكاء الاصطناعي، مما يضمن أداءً أفضل ونتائج أكثر [دقة](/tag/دقة). ما رأيكم في إمكانية تعزيز هذا التوجه في [دراسات الذكاء الاصطناعي](/tag/[دراسات](/tag/دراسات)-الذكاء-الاصطناعي)؟ شاركونا في [التعليقات](/tag/التعليقات)!
اكتشافات مثيرة: كيف يعمل التلاشي الذكي في نماذج المحولات (Transformers) لتفادي الأخطاء!
في دراسة جديدة، تم الكشف عن دور التلاشي (Weight Decay) كمعامل التحكم الرئيسي في نماذج المحولات (Transformers). نتائج مثيرة توضح كيف يؤثر التلاشي على ديناميكيات التدريب.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
