في عالم الذكاء الاصطناعي، تعتبر الوكالات ذات السياقات الطويلة تحديًا كبيرًا لنظم تخزين الكاش المعتمدة على المفاتيح والقيم (KV Cache). تستخدم هذه الوكالات عديدة الجولات نماذج تعتمد على تكرار السياقات الطويلة، مما يسبب ضغطًا غير عادي على الكاش ويؤثر بشكل كبير على كفاءة الأداء.
في هذا السياق، تظهر تقنية UltraQuant كحل مبتكر، حيث تقدم طريقة جديدة لتقليص بيانات الكاش إلى 4-bit باستخدام أساليب فعالة مثل دوران TurboQuant وتقنيات تنقيط الكود. هذا يضمن جودة استخدام البيانات ويعزز أداء النظام ليكون أكثر قدرة على التعامل مع الطلبات المتصاعدة.
تتضمن إنجازات UltraQuant ثلاث نقاط رئيسية:
1. **إعادة صياغة تخزين الكاش**: يتمحور حول الأعمال متعددة الجولات حيث يجب قياس جودة المهام والإقامة في الكاش والسعة الخدمية بشكل متكامل.
2. **خيارات تصميم عملية**: توضح كيف يمكن تحقيق قوة في مسار 4-bit من خلال معالجة غير متماثلة للمفاتيح والقيم، واستخدام دوران Walsh-Hadamard، وإزالة QJL، وتطبيق نسخ بحجم الكتل.
3. **تحسينات الخدمة**: تم تحسين الأداء في وحدات معالجة الرسوميات من AMD، بما في ذلك النوى المحسنة لفك تشفير الانتباه، وUltraQuant كمسار تقريب FP4، الذي يستخدم استعلامات FP8 مع تينسورات KV من نوع FP4.
مع عمل وكالات تتطلب سياقات طويلة وجولات متعددة، تمكن UltraQuant من تقليل زمن الانتظار للوصول إلى أول توكن بنسبة 3.47x في الجولات ذات الضغط على الكاش (2.3x عبر جميع الجولات)، وزيادة الإنتاجية بمقدار 1.63x مقارنةً بأساسيات FP8.
هذا التطور يبشر بمستقبل أكثر سرعة وكفاءة في عالم الذكاء الاصطناعي. ما رأيكم في هذا الابتكار؟ شاركونا في التعليقات.
اكتشاف UltraQuant: ثورة في تخزين الكاش للوكالات الذكية!
تقدم UltraQuant تقنية جديدة لتعزيز الكفاءة في التخزين المؤقت للبيانات لدى الوكالات ذات السياقات الطويلة. نحن نتحدث عن تحسينات مذهلة في سرعة الاستجابة وزيادة الإنتاجية، مما يفتح آفاقًا جديدة في عالم الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
