في عالم الذكاء الاصطناعي المتسارع، شكلت نماذج اللغة الكبيرة (LLMs) ثورة حقيقية في كيفية التعامل مع البيانات والنصوص. لكن مع تزايد حجم هذه النماذج، بدأنا نشهد التحديات الكبيرة التي تواجهها الأجهزة الاستهلاكية في تنفيذ استدلال هذه النم نماذج.

أجرت دراسة جديدة تحليلًا منهجيًا لمنظومات Nvidia وApple Silicon، حيث تم التركيز على الفروقات الداخلية في الهياكل المعمارية المطلوبة لتشغيل نماذج تصل إلى أكثر من 70 مليار معامل.

من جهة، يعاني مستخدمو Nvidia من "ثنائية خلفية" في نظام TensorRT-LLM، حيث تقدم تنسيق NVFP4 الجديد ميزة أداء تصل إلى 1.6 مرة مقارنةً بأساسيات BF16 المحسّنة، لكن هذا الأداء يأتي مع قيود معقدة تؤثر على زمن بدء التشغيل وسرعة التوليد. يعاني مستخدمو وحدات معالجة الرسوميات (GPUs) المنفصلة من خيار مدمر بين خفض النموذج عبر تقنيات تشفير قوية أو استخدام المعالج المركزي (CPU) مما يقلل من أداء التشغيل بنسبة تفوق 90% مقارنةً بالتنفيذ الكامل باستخدام وحدات معالجة الرسوميات.

من ناحية أخرى، يتميز تصميم Apple بـ "معمارية الذاكرة الموحدة" (UMA) التي تتجاوز هذه الإشكاليات، مما يسمح بالتوسع الخطي لنماذج تتجاوز 80 مليار معامل بدقة عملية تصل إلى 4 بت. كما تظهر دراسة Apple تفوقًا واضحًا في كفاءة الطاقة، حيث تصل إلى حوالي 23 مرة أفضل في استخدام الطاقة لكل عملية.

في الختام، تُظهر هذه الدراسة أن الاختيار الأمثل للأجهزة في استدلال النماذج الكبيرة يعتمد على توازن معقد بين كثافة الحساب (Nvidia) وسعة الذاكرة (Apple)، مع وجود "احتكاك بيئي" كبير بسبب التدفقات الخاصة بالتشفير. هل أنتم متحمسون لرؤية كيف ستتطور هذه التقنية؟