في خطوة تكنولوجية مثيرة، تم تقديم طريقة جديدة لتسريع عملية الاستنتاج في نماذج اللغة التحويلية (Transformer Language Models) من خلال الاستفادة من الهيكل الفعال المنخفض (Low Effective Rank) لمنظومة التفعيل الخاصة بالرموز في كل طبقة. تعتمد هذه الطريقة على فك كل متجه تفعيل إلى مكون فرعي ومتبقي، وتحسب مخرجات الطبقة الخطية على المكون الفرعي باستخدام صورة وزن منخفضة النطاق مخزنة لتحقيق كفاءة في عرض الذاكرة، مع تطبيق بوابة لكل رمز تحدد ما إذا كان سيتم حساب التصحيح المتبقي أو تجاوزه.
تضمن البوابة الحفاظ على توزيع المخرجات ضمن حدود معينة يمكن التحكم فيها، مما يزيد من موثوقية النتائج. تم اختبار فعالية هذه الطريقة على ثلاثة عائلات من النماذج (GPT-2 124M، GPT-J 6B، OPT 6.7B) باستخدام وحدة المعالجة الرسومية AMD MI300X، وقد أظهرت تحسناً كبيراً في السرعة يتراوح بين 3.0x إلى 10.5x في قراءات أوزان الطبقات الخطية. كما انخفضت نسب التعقيد إلى أقل من 1.00، مع اتفاقية أعلى من 98% على أول رمز.
ما يميز هذه الطريقة، أنها لا تتطلب إعادة تدريب، ولا تعديلات معمارية، ولا تقريبات لآلية الانتباه. وعند التشغيل (k = 256، ε = 0.05) على نموذج GPT-J 14 6B، أنتج النموذج المعجل مخرجات مطابقة تماماً للإخراج القياسي على مستوى الحرف الواحد. هذه الابتكارات تعد بمستقبل مشرق لتسريع وتعزيز الأداء في مجال نماذج الذكاء الاصطناعي.
ثورة تسريع استنتاجات النماذج التحويلية: تقنيات جديدة تغيّر اللعبة!
تم تطوير تقنية مبتكرة لتسريع استنتاجات النماذج اللغوية التحويلية من خلال استغلال الهيكل الفعال المنخفض للرموز. هذه التقنية تعد بتخفيض فائق في الزمن المستغرق دون الحاجة لأي تعديلات معمارية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
