في عالم الذكاء الاصطناعي، تظهر ظاهرة مثيرة تسمى "Grokking"، تشير إلى أن عملية ملاءمة البيانات التدريبية وفهم قاعدة بسيطة قد تحدث على أوقات زمنية مختلفة. سنتناول هذه الظاهرة بشكل علمي من خلال فصل سرعة اختفاء خسارة التصنيف عن العملية الأبطأ لتبسيط التمثيل المنشود، ونطلق على هذا الثنائي اسم "التوقيتين التدريبيين".
في الشبكات العصبية العميقة الخطية، يمكن أن يؤدي شرط زيادة الفجوة بعد الهامش أو شرط انغلاق الذيل عند خطوة واحدة إلى تقليل خسارة الانتروبيا المتقاطعة لنطاق epsilon على مقياس زمني لوغاريتمي. بالمقابل، عند وجود إضعاف للوزن على مستوى الطبقات، يمكن التعبير عن التنظيم الناتج عن خريطة شاملة كنموذج عقوبة من نوع "Schatten". تحت تأثير ذيل "Kurdyka-Lojasiewicz" الحاد في وقت متأخر، يمكن أن يغلق هذه الطاقة الهيكلية على مقياس زمني متعدد الحدود.
وبذلك، يوضح التوقيتان كيف يتم الفصل بين عملية الملاءمة وبين تبسيط التمثيل. كما نقدم شرحًا لكيفية ظهور نفس الآلية في نماذج الشبكات العصبية متعددة الطبقات باستخدام الدالة الناتجة عن "ReLU". في المناطق التي تظل فيها أنماط التنشيط على مجموعة التدريب ثابتة، تتقلص الشبكة إلى نموذج خطي في الإحداثيات النشطة. ويظهر تحليل إضافي أنه في نموذج تضمين من طبقتين، يمكن أن يحصل رأس المصنف على تدرجات فعالة أكبر من كتلة التضمين، مما يدعم وجود آلية من مرحلتين يقوم فيها المصنف بالملاءمة أولاً، بينما يستمر التمثيل في التبسيط لاحقًا.
نستخدم الإضافة النمطية كإعداد تجريبي رئيسي، حيث تقدم نظرية الشبكات الخطية العميقة جوهر التحليل بدقة. بينما تُصاغ نتائج "ReLU" على أنها اختزالات شرطية تحاكي السلوك التجريبي دون المطالبة بدليل عالمي لديناميات التدريب غير الخطية. هل تشعر بالإثارة من هذه الاكتشافات الجديدة؟ شاركونا آراءكم في التعليقات!
استكشاف توقيتين تدريبيين في عملية التعلم: كيف تتفاعل الأبعاد الخفية للشبكات العصبية العميقة!
تتعمق الدراسة الحالية في مفهوم توقيتين تدريبيين في عملية التعلم، حيث تنفصل مراحل تقليل خسارة التصنيف عن تبسيط التمثيل المتعلم. تعلم المزيد عن تأثير هذه النظرية على الشبكات العصبية العميقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
