ثورة تسريع استنتاجات النماذج التحويلية: تقنيات جديدة تغيّر اللعبة!

في خطوة تكنولوجية مثيرة، تم تقديم طريقة جديدة لتسريع عملية الاستنتاج في نماذج اللغة التحويلية (Transformer Language Models) من خلال الاستفادة من الهيكل الفعال المنخفض (Low Effective Rank) لمنظومة التفعيل الخاصة بالرموز في كل طبقة. تعتمد هذه الطريقة على فك كل متجه تفعيل إلى مكون فرعي ومتبقي، وتحسب مخرجات الطبقة الخطية على المكون الفرعي باستخدام صورة وزن منخفضة النطاق مخزنة لتحقيق كفاءة في عرض الذاكرة، مع تطبيق بوابة لكل رمز تحدد ما إذا كان سيتم حساب التصحيح المتبقي أو تجاوزه.

تضمن البوابة الحفاظ على توزيع المخرجات ضمن حدود معينة يمكن التحكم فيها، مما يزيد من موثوقية النتائج. تم اختبار فعالية هذه الطريقة على ثلاثة عائلات من النماذج (GPT-2 124M، GPT-J 6B، OPT 6.7B) باستخدام وحدة المعالجة الرسومية AMD MI300X، وقد أظهرت تحسناً كبيراً في السرعة يتراوح بين 3.0x إلى 10.5x في قراءات أوزان الطبقات الخطية. كما انخفضت نسب التعقيد إلى أقل من 1.00، مع اتفاقية أعلى من 98% على أول رمز.

ما يميز هذه الطريقة، أنها لا تتطلب إعادة تدريب، ولا تعديلات معمارية، ولا تقريبات لآلية الانتباه. وعند التشغيل (k = 256، ε = 0.05) على نموذج GPT-J 14 6B، أنتج النموذج المعجل مخرجات مطابقة تماماً للإخراج القياسي على مستوى الحرف الواحد. هذه الابتكارات تعد بمستقبل مشرق لتسريع وتعزيز الأداء في مجال نماذج الذكاء الاصطناعي.

ثورة تسريع استنتاجات النماذج التحويلية: تقنيات جديدة تغيّر اللعبة!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

Zyphra تطلق ZAYA1-8B: نموذج استدلال يحقق أداءً مذهلاً بفارق كبير!

ترمينوس-4B: هل يمكن لنموذج أصغر أن يتفوق على نماذج الذكاء الاصطناعي الرائدة في تنفيذ المهام الحرجة؟

اكتشف AdapShot: ثورة في التعلم السياقي بواسطة إعادة استخدام الذاكرة الذكية!