قدمت دراسة حديثة طريقة جديدة تعتمد على نظرية المصفوفات العشوائية (Random Matrix Theory) للكشف عن بداية ظاهرة overfitting في نماذج التعلم العميق من دون الحاجة إلى الاطلاع على بيانات التدريب أو الاختبار.
كيف تعمل هذه الطريقة؟
تستند الأساليب المبتكرة المقدمة في هذه الدراسة إلى تحليل كل طبقة في النموذج من خلال إضفاء الطابع العشوائي على عناصر مصفوفة الأوزان لكل طبقة. يتم خصيصًا تحويل المصفوفة إلى شكل عشوائي، ومن ثم يتم تكييف توزيع الطيف التجريبي مع توزيع مارسينكو-باستور (Marchenko-Pastur Distribution).
يتم بعد ذلك الكشف عن وجود متجهات غريبة تُعرف باسم "فخاخ الترابط" (Correlation Traps) والتي تشير إلى ظهور الخطر أثناء تدريب النموذج. وتظهر هذه الفخاخ خلال المرحلة التي أطلق عليها الباحثون اسم "مرحلة المناقضة" (anti-grokking)، حيث تتناقص دقة الاختبار بينما تبقى دقة التدريب مرتفعة.
التأثيرات والتطبيقات
تسلط هذه الطريقة الضوء على الارتفاع في عدد وقياس الفخاخ، مما يشير إلى إمكانية أن تكون هذه الفخاخ تضر بالأداء العام للنموذج. ومن المثير للاهتمام، أن هذه الظاهرة ليست محصورة فقط في الشبكات العصبية التقليدية بل تشمل أيضًا بعض نماذج اللغات الكبيرة (Large Language Models)، مما ينبه المطورين إلى ضرورة اتخاذ تدابير احترازية حيالها.
الخلاصة
بفضل هذه الأبحاث، يمكن لأحدث التقنيات الكشف عن المشكلات المرتبطة بعملية التعلم، مما قد يعزز من جودة كفاءة النماذج وقدرتها على التعميم. إنها خطوة عظيمة إلى الأمام لفهم أكثر عمقًا لعمليات التعلم في الشبكات العصبية. إذًا، ما هي آراؤكم حول أساليب جديدة للكشف عن الأخطاء في أبحاث الذكاء الاصطناعي؟ شاركونا في التعليقات.
