كيف تسريع معالجة الذاكرة في نماذج اللغات الضخمة (LLMs) يعيد تشكيل الذكاء الاصطناعي!

يعيش عالم الذكاء الاصطناعي (AI) اليوم في عصر يتطلب معالجة د مؤثرات الذكاء الاصطناعي لمواكبة تطورات العصر. لقد أصبحت نماذج اللغات الضخمة (LLMs) تعتمد بشكل متزايد على تقنيات معالجة السياق الطويل وإنتاجه، بما في ذلك الانتباه النادر (sparse attention) وعمليات الاسترجاع المعززة (retrieval-augmented generation - RAG) والذاكرة السياقية المضغوطة. في هذه الدراسة، تم تقديم عملية معالجة الذاكرة المبتكرة، والتي تتألف من أربع مراحل رئيسية: تجهيز الذاكرة، حساب الأهمية، الاسترجاع، وتطبيقها على الاستدلال.

من خلال التحليل الدقيق، اكتشف الباحثون أن هناك عبءًا في معالجة الذاكرة يتراوح بين 22% إلى 97% خلال استدلال نماذج اللغات الضخمة، كما تم التعرف على تباين كبير في خصائصها الحسابية. ولهذا السبب، تم اقتراح الأنظمة المتغايرة كحل مثالي للتسريع في معالجة الذاكرة وبالتالي تحسين الاستدلال الشامل.

وقد تم اختبار هذا النهج على نظام مبني على وحدات معالجة الرسومات (GPU) ووحدات FPGA، حيث تم تفريغ العمليات النادرة وغير المنتظمة وذات قيود الذاكرة إلى وحدات FPGA مع الاحتفاظ بالعمليات المكثفة حسابيًا على وحدات GPU. ووفقًا للتقييمات المنفذة على معالج AMD MI210 ووحدات Alveo U55C FPGA، يمكن أن يكون النظام أسرع بمقدار 2.2 مرة ويحقق توفيرًا في الطاقة يصل إلى 4.7 مرة مقارنةً بالنظام الأساسي القائم على GPU، مع إمكانية تحقيق نتائج مماثلة على وحدات NVIDIA A100.

تثبت هذه النتائج أن الأنظمة المتغايرة تمثل اتجاهًا عمليًا لمعالجة الذاكرة في نماذج اللغات الضخمة، مما يوفر رؤى قيّمة لتصميم الأجهزة المستقبلية المتغايرة.

كيف تسريع معالجة الذاكرة في نماذج اللغات الضخمة (LLMs) يعيد تشكيل الذكاء الاصطناعي!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

NVIDIA تطلق SANA-WM: نموذج عالمي مفتوح المصدر يولد فيديوهات دقيقة بدقة 720p باستخدام GPU واحد!

مواجهة بين ماسك وألتمن: تحولات دراماتيكية في المحاكمة الأخيرة!

بذكاء اصطناعي: باحثون يخترقون نظام macOS ويكشفون عن ثغرات مثيرة!