لقد أثبتت تقنية ضغط المعاملات المنخفضة (Low-rank compression) القائم على التحليل التلقائي للقيم الفردية (SVD) قدرتها في تقليل عدد المعاملات وسرعة معالجة النموذج اللغوي الكبير (Large Language Model) بشكل كبير. ولكن، وعلى الرغم من تلك الفوائد، يبقى التحدي في سرعة الخدمة الفعلية لهذه النماذج. تكنولوجيا FlashSVD v1.5 تأتي لحل هذه المشكلة باستراتيجيات مبتكرة.

تستند مشكلات الأداء التي يتم مواجهتها أثناء تشغيل نماذج SVD إلى ما يُعرف بمسارات التنفيذ المجزأة، حيث تختلف الأعباء التشغيلية بشكل كبير بين طرق التشفير المسبق (prefill) والفك التلقائي (autoregressive decode). تقدم FlashSVD v1.5 منصة تنفيذ موحدة تهدف إلى تقديم خدمة أكثر كفاءة لنماذج محولات SVD المضغوطة.

تربط FlashSVD v1.5 بين عائلات ضغط SVD العامة المختلفة من خلال تمثيل متماسك في بنية واحدة وتجمع بين خطط معالجة محددة للمرحلة ومسارات استجابة مدمجة، مما يحقق إعادة تنظيم مسار الخدمة المنخفضة إلى دورة تشغيل رشيقة. تُظهر نتائج التجارب أن هذه التقنية تتيح تسارعًا يصل إلى 2.55 مرة في فك الشيفرة و2.39 مرة لتسريع العملية الكاملة، مع متوسط تسارع يبلغ 1.48 مرة في فك الشيفرة و1.44 مرة في العملية الكاملة عبر عدة عائلات ضغط SVD شائعة.

تؤكد هذه النتائج أن تسريع الأداء الفعلي يتطلب تعاونًا بين تصميم وقت التشغيل وليس فقط خوارزميات الضغط. يشير ذلك إلى مستقبل مشرق لتطبيقات الذكاء الاصطناعي التي تطمح إلى تحقيق أداء عالٍ وسريع.

يمكنكم الاطلاع على الرمز المصدر الخاص بهذه التقنية عبر هذا الرابط: [FlashSVD GitHub](https://github.com/Zishan-Shao/FlashSVD).