في عالم الذكاء الاصطناعي، أُجريت [دراسة](/tag/دراسة) حديثة تحمل عنوان "[ديناميات](/tag/ديناميات) [تدريب](/tag/تدريب) [نموذج المحولات](/tag/[نموذج](/tag/نموذج)-[المحولات](/tag/المحولات)) الخطية ثنائية العامل"، والتي كشفت عن بعض المفاجآت المثيرة. أظهرت [الأبحاث](/tag/الأبحاث) أن [المحولات](/tag/المحولات) الخطية المُبسطة يمكنها [تعلم](/tag/تعلم) [الخوارزميات](/tag/الخوارزميات) الخاصة بالانحدار الخطي في السياق، إلا أن ذلك لا يفسر بشكل كامل السلوك عند استخدام معدلات [تعلم](/tag/تعلم) كبيرة.
لقد استندت تلك [الدراسة](/tag/الدراسة) إلى [أعمال](/tag/أعمال) تجريبية رصدت عدم [استقرار](/tag/استقرار) [المحولات](/tag/المحولات) عند معدلات [تعلم](/tag/تعلم) مرتفعة، وركزت على [نموذج](/tag/نموذج) تدريبي خاص يمكن تقليله بدقة. بعد إتمام عملية التطبيع، انخفضت الديناميكيات إلى خريطة [إنتاجية](/tag/إنتاجية) ثنائية العامل مع معامل خطوة فعّال. وفي قسم متوازن من الدراسة، تمت استعادة الانتقال المكعب المعروف الذي ينتقل من التقارب الأحادي إلى التقارب المتسارع، فضلاً عن [سلوكيات](/tag/سلوكيات) غير مستقرة وفوضوية.
تستمر [الدراسة](/tag/الدراسة) في [تحليل](/tag/تحليل) النظام ثنائي الأبعاد بشكل شامل، حيث يتبين أنه يمكن أن يخضع لمناطق تسمى "[الدوائر](/tag/الدوائر) الجذابة". تشير النتائج إلى أن معدلات [التعلم](/tag/التعلم) العالية يمكن أن تُغيّر [الجاذبية](/tag/الجاذبية) التدريبية للنموذج، مما يؤثر على النتائج النهائية. بدلاً من [تحقيق](/tag/تحقيق) نتائج في إطار واحد، قد ينتهي [التدريب](/tag/التدريب) إلى دورات أو [فوضى](/tag/فوضى) محصورة أو حتى التفكك.
بالتالي، يتضح أن الاعتماد على [السرعة](/tag/السرعة) فقط في [التدريب](/tag/التدريب) قد يكون مضللًا. ينبغي على [الباحثين](/tag/الباحثين) والممارسين في هذا المجال إعادة [التفكير](/tag/التفكير) في استراتيجياتهم التدريبية، خاصة عندما يتعلق الأمر بتقنيات [الانحدار](/tag/الانحدار) الميني-باتش، مما يفتح آفاق جديدة لتطوير [أساليب](/tag/أساليب) أكثر أمانًا وفاعلية في [تعلم](/tag/تعلم) [النماذج](/tag/النماذج).
اكتشافات مذهلة في ديناميكيات تدريب نماذج المحولات الخطية: تأثير خطوات التعلم الكبيرة!
توصل الباحثون إلى أن استخدام معدلات تعلم كبيرة قد يغير ديناماتيكيات تدريب نماذج المحولات الخطية، مما يؤدي إلى سلوكيات غير متوقعة مثل الفوضى والدورات. النتائج تشير إلى أن السرعة ليست كل شيء في التدريب، بل يمكن أن تؤدي إلى نتائج غير مستقرة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
