على مدار السنوات القليلة الماضية، شهدنا تقدمًا كبيرًا في تقنيات الذكاء الاصطناعي، خاصة في مجال نماذج اللغات الضخمة (Large Language Models). في هذا السياق، قدم الباحثون تقنية جديدة تُعرف باسم Pro-KLShampoo، التي تمثل خطوة كبيرة في تحسين كفاءة نماذج التدريب.

تعمل خوارزميات تحسين الأداء، مثل KL-Shampoo، على استغلال هيكل المصفوفات للانحدارات، مما يجعلها أساسية في مرحلة ما قبل تدريب نماذج الذكاء الاصطناعي. ولكن ما يميز Pro-KLShampoo هو كيفية تعاملها مع معايير المحددات بشكل أكثر فعالية. فقد لاحظ الباحثون أن طيف القيم الذاتية لمحددات Kronecker في KL-Shampoo يتسم بشكل مميز، حيث يظهر نمطًا يُعرف بـ "الذروة والمسطحة"، مع وجود عدد قليل من القيم الذاتية المسيطرة يتبعها ذيل موحد تقريبًا.

من خلال استغلال هذا الهيكل، قدمت Pro-KLShampoo تقنيات جديدة لضبط محددات Kronecker بما يتماشى مع هذا الشكل المميز، مما أدى إلى تحسين الأداء عبر جميع مقاييس التدريب المختلفة. لقد أثبتت هذه التقنية فعاليتها من خلال تفوقها على KL-Shampoo التقليدي في قياسات مثل خسارة التدريب، الذاكرة الاستخدامية لكل وحدة معالجة مركزية، والوقت المطلوب للوصول إلى مستويات خسارة محددة عبر أربعة مقاييس تدريبية مختلفة من نماذج GPT-2 وLLaMA.

بشكل عام، يعد Pro-KLShampoo مثالاً واضحًا للطريقة التي يمكن بها للابتكارات في تكنولوجيا الذكاء الاصطناعي أن تقدم فوائد كبيرة، ليس فقط في سرعة التدريب ولكن أيضًا في تقليل الموارد اللازمة. ما رأيكم في هذه التقنية الجديدة؟ شاركونا آرائكم في التعليقات.