في عالم الذكاء الاصطناعي وتحديدًا في مجال نماذج اللغات الضخمة (Large Language Models)، يكمن تحدٍ كبير في تكاليف الذاكرة المرتبطة بتخزين الأوزان بترتيب كامل. لهذا، ظهرت تقنيات التدريب المسبق ذات الترتيب المنخفض (Low-Rank Pre-Training) كحل واعد، لكنها تثير سؤالاً مهماً: هل هذه التقنيات توصل النماذج إلى أداء يضاهي تدريب الترتيب الكامل، أم أن القيود المفروضة على الترتيب تُحدث تغييرات جذرية في الحلول المقدمة؟
تظهر الأبحاث الحالية أن المقارنات بين الأساليب تختلف بشكل كبير وتعتمد على قياسات التعقيد (Perplexity) المستمدة من جولات اختبار وحيدة. ومع ذلك، يعتبر تعقيد القياس مؤشراً ضعيفاً لجودة الحلول، حيث يمكن لأسلوبين أن يتطابقا في التعقيد بينما يحققان نتائج مختلفة تمامًا في البيئات الداخلية.
وكشفت دراسة حديثة عن كيفية تقييم خمسة أساليب من التدريب المسبق ذات الترتيب المنخفض: GaLore وFira من بين مُحسّنات فعالة في استهلاك الذاكرة، CoLA وSLTrain من تقنيات إعادة تشكيل العمارة، وReLoRA التي تعتمد على تحديثات بأسلوب الملحق مع إعادة تعيين دورية. تم تقييم هذه الأساليب ضد التدريب ذو الترتيب الكامل عبر ثلاثة مقاييس مختلفة لأحجام النماذج (60 مليون، 130 مليون، 350 مليون).
استخدمت الدراسة 16 مقياسًا في أربعة أبعاد مختلفة، تشمل: هيكل التوزيع للخسارة، والهيكل الطيفي للأوزان، وتشابه النشاطات مع التدريب ذو الترتيب الكامل. وجدت النتائج أن أساليب الترتيب المنخفض ليست متساوية في الأداء، بل تختلف بشكل ملموس، رغم توافقها في تعقيد القياس.
تظهر النتائج أيضًا أن النماذج تحت التدريب ذي الترتيب الكامل تستقر في مناطق أكثر حدة من تلك التي تحت التدريب ذي الترتيب المنخفض. ومع تقدم التدريب، فإن التفاعلات في الطبقات المتقدمة تختلف بشكل متزايد عن التدريب بترتيب كامل، حيث تبين أن GaLore تتابع التدريب بترتيب كامل أكثر دقة.
وفي النهاية، لا يمكن اعتبار تعقيد القياس مقياسًا موثوقًا للأداء في كل الأحجام، حيث أظهرت الدراسة أن إضافة مقاييس هندسية وطيفية تعزز من التنبؤ بالأداء بشكل أفضل.
هل أثارت هذه النتائج فضولكم حول مستقبل تقنيات التدريب المسبق في الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!
استكشاف عميق: دراسة هندسية وطيفية لتقنيات التدريب المسبق ذات الترتيب المنخفض
تكتسب تقنيات التدريب المسبق ذات الترتيب المنخفض (Low-Rank Pre-Training) اهتمامًا متزايدًا في مجال نماذج اللغات. دراسة جديدة تكشف كيف أن هذه التقنيات قد تُحدث تغييرات جذرية في جودة النماذج مقارنة بتدريب الترتيب الكامل.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
