في عالم الذكاء الاصطناعي، تلعب هندسة وزن الشبكات العصبية (Neural Networks) دوراً مهماً في تحسين أدائها. ومع ذلك، غالبًا ما يتم تطبيق القيود الهندسية على جميع مصفوفات الوزن بشكل موحد. في دراسة جديدة، تم طرح سؤال مثير للاهتمام: هل تفضل وحدات التحويل (Transformers) هندسات manifolds (الفضاءات) المختلفة؟
تركز هذه الدراسة على نموذج GPT-2 في مرحلة التدريب المسبق، حيث تمت مقارنة توزيع قيود Stiefel وDGram عبر كتل الانتباه (Attention) وMLP (Multi-Layer Perceptrons). أظهرت النتائج وجود عدم تماثل واضح؛ فقد ثبت أن تقييد طبقات الانتباه باستخدام هندسة Stiefel، مع تعيين هندسة DGram لطبقات MLP، يؤدي إلى تحقيق أفضل أداء بين التكوينات المفحوصة.
بدلاً من ذلك، عند عكس التعيين أو استخدام تكوين DGram فقط، تصبح النتائج غير مستقرة تحت إعدادات هايبر بارامتر المشتركة. وقد تم تتبع هذه الإخفاقات إلى النمو الكبير للقيم الفردية في أوزان الانتباه المقيدة بهندسة DGram، مما يعزز من دلالات الانتباه ويتسبب في تشبع Softmax.
تقدم هذه النتائج دليلاً قوياً على أنه يجب أن يكون تحسين الشبكات العصبية في وحدات transformers مدروساً بعناية ويعتمد على طبيعة كل وحدة بشكل خاص بدلاً من تطبيق نهج موحد. مع ذلك، كيف يمكننا تطبيق هذه الرؤى الجديدة على التطورات المستقبلية في الذكاء الاصطناعي؟
إعادة رسم معالم الأداء: كيف يمكن أن تغير هندسة وزن وحدات التحويل مستقبل الذكاء الاصطناعي؟
أثبتت دراسة جديدة أن وحدات التحويل (Transformers) تحتاج إلى هندسات وزن مختلفة لتحقيق أقصى أداء. يعكس هذا البحث ضرورة فهم كل وحدة على حدة لتعزيز فعالية الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
