في عالم التعلم العميق، لا شك أن تحسين الأداء وتوفير الذاكرة يعدان من التحديات الأساسية التي يواجهها الباحثون والمطورون. هنا يأتي دور "جيفن" (Gefen)، المحسن العشوائي الذي قدمه الباحثون كحل مبتكر يساعد على تقليل استهلاك الذاكرة بشكل ملحوظ.
حتى الآن، يُعتبر محسن "آدم دبليو" (AdamW) المعيار الأساسي للتعلم العميق الحديث، لكن استهلاكه الكبير للذاكرة بسبب حالتيه الأولى والثانية قد يمثل تحديًا حقيقيًا، حيث تحتاج تلك الحالات إلى إضافتين من حجم المعلمات للتخزين. بينما يعيق ذلك قدرة النموذج على استغلال موارد الذاكرة بكفاءة، يوفِّر جيفن بديلاً مثاليًا من خلال مبدأ مبتكر يتعلق بمشاركة تقديرات اللحظة الثانية عبر كتل المعلمات وتقنية تقنين اللحظة الأولى باستخدام قائمة رموز متعلمة، مما يؤدي إلى تقليل تأثير "آدم دبليو" على الذاكرة بمعدل يقارب 8 مرات، وما يُعادل 6.5 غيغابايت لكل مليار معلمة.
هذا الإنجاز يعود إلى نتائج نظرية توضح أن العناصر الكبيرة في مصفوفة هاسيان (Hessian) تحد من نسبة التدرجات المربعة نحو الواحد، ما يجعل المعلمات المتوافقة مع هاسيان مرشحة طبيعية لمشاركة إحصائيات اللحظة الثانية. يُعتبر حساب مصفوفات هاسيان معقدًا على نطاق واسع، لذا يستنبط جيفن بنية الكتل من التدرجات المربعة الأولية دون الحاجة إلى بيانات ميتا معمارية محددة أو معاملات فائض، مما يسهل من استخدامه.
من خلال التجارب المتنوعة، أظهر جيفن أداءً متميزًا حيث حقق أدنى استهلاك للذاكرة بين الوسائل المشابهة لـ "آدم دبليو"، مع الحفاظ على مستوى أداء مقبول. في بيئات التدريب المتوازية مثل FSDP وDDP، يمكن للمساحة الذاكرية المخفضة أن تدعم دفعات صغيرة أكبر وتحسن السعة الإنتاجية بشكل كبير مقارنة بأسلوب "آدم دبليو".
تم توفير كامل تنفيذ هذا المحسن بلغة بايثون، بما في ذلك نوى CUDA المدمجة، على GitHub.
هل أنتم مستعدون لاستكشاف مزايا جيفن في مشروعاتكم القادمة؟ شاركونا آراءكم وتجاربكم في التعليقات!
جيفن: محسن عشوائي مبتكر يوفر الذاكرة بمعدل مذهل!
يقدم جيفن (Gefen) محسنًا ذا طاقة أدائية عالية مع تقليل كبير في استهلاك الذاكرة. يمكن أن يساهم هذا التطور في تعزيز كفاءة تعليم نماذج الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
