في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) ([AI](/tag/ai))، يعتبر [التدريب](/tag/التدريب) الفعال لنماذج [اللغات](/tag/اللغات) الضخمة (Large Language [Models](/tag/models)) تحديًا كبيرًا. ومع ذلك، توصل الباحثون إلى طريقة جديدة لنقل المعلمات (hyperparameter transfer) بين النماذج، مما يمكّنهم من [استغلال](/tag/استغلال) أفضل المعلمات من [النماذج](/tag/النماذج) الصغيرة إلى الكبيرة. في مقالة جديدة، قُدِّم إطار [عمل](/tag/عمل) مبتكر لتقييم عملية [نقل المعلمات](/tag/[نقل](/tag/نقل)-المعلمات) من خلال ثلاث [مقاييس](/tag/مقاييس) رئيسة: جودة مطابقة [قانون](/tag/قانون) القياس، [متانة](/tag/متانة) مواجهة [أخطاء](/tag/أخطاء) الاستقراء، والعقوبة الناتجة عن اختيار المعلمات.
كشفت [الدراسة](/tag/الدراسة) عن استخدام المعلمات القصوى (Maximal Update - μP) كأسلوب يحقق نقلة نوعية في جودة [نقل](/tag/نقل) [معدل التعلم](/tag/معدل-[التعلم](/tag/التعلم)) مقارنةً بالممارسات القياسية (Standard Parameterization - SP). كان [اكتشاف](/tag/اكتشاف) [الباحثين](/tag/الباحثين) حاسمًا، حيث تم تقديم الدليل على أن [تحسين](/tag/تحسين) معدل [تعلم](/tag/تعلم) طبقة الإدخال يُعتبر العامل الأهم في [تحسين أداء](/tag/[تحسين](/tag/تحسين)-[أداء](/tag/أداء)) [التدريب](/tag/التدريب). بينما كانت طبقة الإدخال في SP تمثل نقطة ضعف في التدريب، فإن زيادة معدل تعلمها بشكل يتناسب مع μP عززت من [استقرار](/tag/استقرار) [التدريب](/tag/التدريب).
وعلاوة على ذلك، أوضح المحللون أن استخدام انحدار الوزن (weight decay) يمكن أن يحسن مطابقة [قانون](/tag/قانون) القياس، لكنه قد يؤدي إلى تراجع [المرونة](/tag/المرونة) في مواجهة [أخطاء](/tag/أخطاء) الاستقراء. مع هذه النتائج، تفتح الأبواب أمام [مستقبل](/tag/مستقبل) واعد في مجال [تدريب](/tag/تدريب) [نماذج](/tag/نماذج) الذكاء الاصطناعي، مما يعزز من كفاءتها وقدرتها على التعامل مع المهام المعقدة.
إطلاق العنان لقوة نقل المعلمات الثابتة: تأثير معدل تعلم طبقة الإدخال على نماذج الذكاء الاصطناعي
تسلط الدراسة الجديدة الضوء على كيفية نقل المعلمات بكفاءة بين النماذج وتبرز أهمية معدل تعلم طبقة الإدخال. هذه النتائج قد تغير قواعد اللعبة في تدريب نماذج اللغات الضخمة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
