في عالم الذكاء الاصطناعي، أصبح ضبط نماذج اللغة العملاقة (Large Language Models) ضرورة ملحة لتناسب مجالات مختلفة. ومع ذلك، فإن الطابع المكثف للذاكرة لهذه العمليات يتجاوز قدرات معظم وحدات معالجة الرسوميات (GPUs). لحل هذه المشكلة، تم تصميم SlideFormer كنظام مبتكر مخصص للعمل في بيئات GPU الفردية.

أحد أبرز الابتكارات في SlideFormer هو المحرك الخفيف الوزن الذي يعمل بطريقة غير متزامنة، حيث يتعامل مع وحدة المعالجة الرسومية كنافذة منزلقة. هذا يعني أنه يتم مزامنة عمليات المعالجة على GPU مع تحديثات CPU وإدخال/إخراج متعدد المستويات. هذه الطريقة توفر قدرة أكبر على المعالجة وتحسن فعالية استخدام الذاكرة.

علاوة على ذلك، يعتمد النظام على نظام متطور لإدارة الذاكرة غير المتجانسة، مما يقلل بشكل كبير من استخدام الذاكرة القصوى. كما تم تحسين نوى Triton لحل الاختناقات الرئيسية وتم دمج إدخال/إخراج متطور.

تمكن هذا التصميم التعاوني من تعديل أحدث النماذج التي تحتوي على أكثر من 123 مليار وحدة على بطاقة RTX 4090 الوحيدة، مما يدعم أحجام دفعات أكبر حتى 8 مرات ونماذج أكبر 6 مرات.

في التقييمات، حقق SlideFormer أداءً رائعاً، حيث زادت الإنتاجية من 1.40x إلى 6.27x مقارنة بالأسس، مع الحفاظ على استخدام الذاكرة لكل من المعالج المركزي (CPU) ووحدة المعالجة الرسومية (GPU) بما يقارب النصف، مع أداء يتجاوز 95% على كل من وحدات NVIDIA وAMD. لذا، إذا كنت تبحث عن طريقة مثالية لتعديل نماذج اللغة العملاقة بكفاءة على وحدات معالجة رسومية فردية، فإن SlideFormer هو الجواب الذي تحتاجه.

(للمزيد من المعلومات، يمكنك زيارة: رابط كود SlideFormer).