في عالم اليوم، يتزايد الاعتماد على [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models) - [LLMs](/tag/llms)) في [تطبيقات](/tag/تطبيقات) الهواتف المحمولة، مما يجعل [معالجة البيانات](/tag/معالجة-[البيانات](/tag/البيانات)) بكفاءة أكبر أمراً بالغ الأهمية. في هذا السياق، يقدم [البحث](/tag/البحث) الجديد عن [إطار العمل](/tag/إطار-العمل) Quant.npu تحولاً جذرياً في كيفية [استغلال](/tag/استغلال) وحدات المعالجة العصبية (Neural Processing Units - NPUs) للتوصل إلى [كفاءة](/tag/كفاءة) [استدلال](/tag/استدلال) أفضل.
يعتمد هذا الإطار على [تقنيات](/tag/تقنيات) التحويل الكمي الثابت بالكامل (Fully Static [Quantization](/tag/quantization))، وهو ما يعد ضرورياً لزيادة فعالية [أداء](/tag/أداء) NPUs. وعلى الرغم من تقدم الأساليب الحالية في التحويل الكمومي بعد [التدريب](/tag/التدريب) (Post-Training [Quantization](/tag/quantization) - PTQ)، إلا أنها تواجه [تحديات](/tag/تحديات) كبيرة بسبب الاعتماد على [تحويلات](/tag/تحويلات) [ديناميكية](/tag/ديناميكية) غير ملائمة للقيود المفروضة على [أجهزة](/tag/أجهزة) [NPU](/tag/npu).
الأكثر إثارة هو أن Quant.npu يقدم حلاً يتيح استخدام معلمات كميّة قابلة للتعلم ومصفوفات دوران، مما يسمح بتحويلات وزن وتفعيل بتات منخفضة دون الحاجة لتعديل معلمات الكميّة أثناء وقت التشغيل. وقد أظهرت [الأبحاث](/tag/الأبحاث) أن [تحسين](/tag/تحسين) [استقرار](/tag/استقرار) [التحسين](/tag/التحسين) يعتمد بشكل كبير على كيفية تهيئة هذه المعلمات بشكل انتقائي.
لضمان [استقرار](/tag/استقرار) هذا التحسين، يعتمد Quant.npu على إعدادات خاصة تأخذ بعين الاعتبار [تنوع](/tag/تنوع) [البيانات](/tag/البيانات) باستخدام [استراتيجيات](/tag/استراتيجيات) [تكييف](/tag/تكييف) دقيق. ولم يقتصر الأمر على ذلك، بل تم تقديم نظام [مرونة](/tag/مرونة) ذات [دقة](/tag/دقة) مختلطة للتوازن بين [دقة النتائج](/tag/[دقة](/tag/دقة)-النتائج) وكفاءة [الاستدلال](/tag/الاستدلال).
تظهر [التجارب](/tag/التجارب) [الواقعية](/tag/الواقعية) على NPUs المحمولة أن Quant.npu حقق [دقة](/tag/دقة) متساوية مع أحدث الطرق الموجودة، مع تقليل زمن الاستجابة بسرعة تصل إلى 15.1%. وهذا ما يجعل هذا النظام خطوة فارقة [نحو](/tag/نحو) [تحقيق](/tag/تحقيق) [أداء](/tag/أداء) أقوى في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي).
فما رأيكم في هذه [الابتكارات](/tag/الابتكارات) الجديدة؟ هل تعتقدون أن [التقنية](/tag/التقنية) ستحدث تحولاً في استخدام [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) على [الأجهزة](/tag/الأجهزة) المحمولة؟ شاركونا آراءكم في [التعليقات](/tag/التعليقات)!
ثورة جديدة في معالجة الذكاء الاصطناعي: إطار العمل Quant.npu لتحسين الأداء على الأجهزة المحمولة!
تمتاز نماذج اللغات الضخمة (LLMs) الحديثة بقدرتها على العمل على الأجهزة المحمولة، بفضل إطار العمل Quant.npu الذي يقدم تقنيات متطورة لتحسين كفاءة الاستدلال. يحقق هذا الإطار دقة متساوية مع تقليل زمن الاستجابة بنسبة تصل إلى 15.1%.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
