في عالم الذكاء الاصطناعي والتعلم الآلي، تزداد موثوقية خوارزميات التوقيع (Sign-based optimization algorithms) مثل SignSGD وMuon، حيث تتألق هذه الأساليب في تدريبة النماذج الأساسية الكبيرة. ورغم النجاح الملحوظ لهذه الخوارزميات في التطبيقات، إلا أنه يظل هناك نقص في الفهم النظري حول الظروف التي تؤدي إلى تفوقها على طريقة التدريب التقليدية وهي خوارزمية التدرج النزولي (SGD).

يتناول التحليل في هذه الدراسة عدة جوانب جوهرية، حيث يعاني الباحثون من صعوبة تفسير تفوق SignSGD في ظل ظروف التماسك والنهاية المحدودة القياسية، حيث تعتبر خوارزمية SGD مثالية للعثور على نقاط ثابتة عندما تُقاس بواسطة معايير (ℓ₂). وبالتالي، فإن هذا يمنع تحقيق أي مكاسب في التعقيد لدى الخوارزميات المعتمدة على التوقيع في الأوضاع المعيارية.

للتغلب على هذه العقبة، قام الباحثون بتحليل المُحسِّنات المعتمدة على التوقيع من خلال الاستفادة من خصائص مثل تماسك مستوى (ℓ₁) والنعومة (ℓ∞) ونموذج الضوضاء القابل للفصل، الذي يمكنه أن يستوعب بشكل أفضل طبيعة التحديثات الموقعة من حيث الإحداثيات.

في هذا السياق، استنتجوا حدودًا متطابقة لكل من SignSGD وSGD، مبرزين الفئة الخاصة من المشكلات التي يمكن أن تتفوق فيها SignSGD بشكل موثق على SGD. وقد طُرح مقارنة بين الحد الأقصى ل SignSGD والحد الأدنى ل SGD، موضحًا أن SignSGD يقلل بشكل فعال من التعقيد بمقدار عامل يساوي (d) في حالة الضوضاء المتناثرة.

علاوة على ذلك، تم توسيع هذا الإطار إلى المجال المصفوفي، مما يوفر حدًا أدنى مثاليًا مكافئًا لمُحسّن Muon، مثبتًا أن توسيع عامل التوقيع ليشمل المصفوفات يحافظ على هذا القياس المثالي مع زيادة الأبعاد. أخيرًا، تم ربط الحدود النظرية بممارسات التطبيق، حيث أظهرت نتائجهم أن تفوق SignSGD النظري يتنبأ بدقة بتسريع التقارب أثناء التدريب المسبق لنموذج GPT-2 الذي يحتوي على 124 مليون معلمة.

إذا كنت تبحث عن كيفية تحسين نماذج الذكاء الاصطناعي الخاصة بك أو إذا كنت مهتمًا بالتقنيات الرقمية الحديثة، فنحن نرحب بتعليقاتكم وآرائكم حول هذا التطور المشوق في مجال الذكاء الاصطناعي!