في عالم الذكاء الاصطناعي (AI) سريع التطور، تشهد الأنظمة التي تعتمد على نماذج اللغات الضخمة (Large Language Models) تغييرات جذرية تعمل على تحسين كفاءة الأداء. ومن بين الابتكارات الجديدة، تظهر AMMA كحل متطور يعتمد على هيكلية الذاكرة المتعددة الشرائح، مما يحقق قفزة نوعية في معالجة البيانات.

تعمل معظم أنظمة تقديم خدمات LLM حاليًا بتركيز كبير على معالجات الرسوميات (GPU) كمرتكز رئيسي، حتى في الاقتراحات الأكاديمية مثل معمارية PIM/PNM. ومع ذلك، فإن هذه البنية تسبب مشاكل عدم التوافق مع طابع الذاكرة المعتمد في مرحلة فك الاستدلال. حيث يتحتم على هذه الأنظمة التعامل مع أطوال سياقية قد تصل إلى مليون رمز، مما يؤدي إلى زيادة زمن الاستجابة.

تقدم AMMA حلاً مثيرًا، حيث تستعيض عن وحدات معالجة الرسوميات بوحدات ذاكرة متطورة HBM-PNM، مما يزيد من عرض النطاق الترددي المتاح تقريبًا بنسبة الضعف. وقد تم تصميم طبقات ميكروية logic-die تعمل بكفاءة عالية على استغلال العرض الداخلي لكل وحدة، مع الاستجابة للحد الأدنى من استهلاك الطاقة.

يُعتبر الابتكار في AMMA مرتبطًا أيضًا بنظام موازنة هجينة متعدد المستويات، وتنظيم تدفق جماعي جديد يقلل من زمن التواصل داخل الشرائح. ومع إجراء تقييمات مقارنة، أثبتت AMMA أنها تحقق زمن استجابة أقل بمعدل 15.5 مرة واستهلاك طاقة أقل بمعدل 6.9 مرة بالمقارنة مع نظام NVIDIA H100.

هذه المعمارية الجديدة لا تعني فقط تحسين الأداء، ولكنها تمهد الطريق لاستكشافات مستقبلية في تصميم الأجهزة تتيح لمصممي التكنولوجيا توجيه جهودهم نحو تحسين الحوسبة الداخلية وعرض النطاق الترددي داخل الشرائح، مما يوفر بيئة أكثر كفاءة وأقل استهلاكاً للطاقة.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.