في الوقت الذي يزداد فيه الاعتماد على نماذج اللغة الكبيرة (Large Language Models) في أنظمة الذكاء الاصطناعي الطرفية، تبرز الحاجة إلى تنفيذ فعّال تحت ميزانيات ذاكرة صارمة. من التحديات الرئيسية التي تواجه هذه الأنظمة هو تخزين البيانات عبر ما يُعرف بذاكرة المفاتيح والقيم (Key-Value Caches)، والتي كثيرًا ما تتجاوز سعة الذاكرة المتاحة للجهاز.
يقدم نظام DUAL-BLADE حلاً مبتكرًا لهذه المشكلة، حيث يعتمد على إطار عمل ذاكرة KV مزدوج المسار يخصص البيانات الديناميكية إلى مسارين: مسار يستخدم نظام التخزين المؤقت للصفحات (Page Cache) وآخر مباشر (NVMe-Direct). هذه البنية تتيح تخزين البيانات بشكل مباشر عبر توصيف المناطق المنطقية للكتل، مما يؤدي إلى وصول سريع وذو تكلفة منخفضة.
تم تصميم DUAL-BLADE لتحسين الأداء من خلال دمج التوازي التكيفي، مما يسمح بتداخل إدخال/إخراج البيانات مع DMA الخاص بوحدات معالجة الرسوم (GPU)، الأمر الذي يُحسن من سرعة الاستدلال. النتائج التجريبية تشير إلى أن هذه التقنية الجديدة قللت من التأخيرات بنسبة تصل إلى 33.1% لعمليات التحميل الأولي و42.4% لعمليات فك التشفير، وزادت في استخدام SSD بمعدل 2.2x في ظل ميزانيات ذاكرة متنوعة.
باختصار، يمثل DUAL-BLADE خطوة فريدة نحو تحسين أداء الذكاء الاصطناعي في الأنظمة الطرفية، مما يعزز من قدرة نماذج اللغة الكبيرة على الوفاء بمتطلبات المستقبل المتزايدة.
ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
ثورة في الذكاء الاصطناعي: نظام DUAL-BLADE لتسريع نماذج اللغة الكبيرة
يقدم نظام DUAL-BLADE حلاً مبتكرًا لتحديات تخزين البيانات في نماذج اللغة الكبيرة، مما يُحسن الأداء بشكل كبير. تعتمد هذه التقنية على إطار عمل فريد يجمع بين ذاكرة التخزين المؤقت ونظم التخزين السريع لضمان أداء مُحسن عند تنفيذ الاستدلال على الأنظمة الطرفية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
