في عصر الذكاء الاصطناعي، أظهرت نماذج اللغات الضخمة (Large Language Models) أداءً استثنائياً، لكن قدومها مع عدد هائل من المعاملات يجعل نشرها مكلفاً للغاية. ولذا، فإن استخدام تقنيات التحليل المنخفض الرتبة (Low-Rank Approximation) يظهر كحل واعد لضغط هذه النماذج، إلا أن هناك قيوداً رئيسية تعيق هذه التقنيات.

تتركز القيود الأساسية في نهج التحليل المنخفض الرتبة التقليدي على نقطتين رئيسيتين: الأولى، أنها تركز على تقليل خطأ المخرجات في الطبقات الخطية الفردية دون أخذ الخصائص المعمارية لنماذج Transformers بعين الاعتبار. الثانية، أنها تقوم بتفكيك مصفوفة الوزن الكبيرة إلى مصفوفتين صغيرتين ذات رتبة منخفضة ما يؤدي غالباً إلى أداء أقل مقارنة بتقنيات ضغط أخرى مثل التخفيف (Pruning) والتكميم (Quantization).

لتجاوز هذه القيود، قدم الباحثون إطار A3، الذي يقوم بتقسيم طبقة Transformers إلى ثلاثة مكونات وظيفية: $ exttt{QK}$ و$ exttt{OV}$ و$ exttt{MLP}$، ويقدم حلولاً تحليلية تقلل من حجم البُعد الخفي داخل كل مكون، مع الحفاظ على الحد الأدنى من فقدان الوظيفة.

هذه الطريقة تعمل بشكل مباشر على تقليل أحجام النماذج، وحجم الذاكرة المؤقتة (KV cache)، وعدد العمليات الحسابية (FLOPs) دون إدخال أي أعباء زمنية إضافية. من خلال التجارب الموسعة، أظهرت النتائج أن إطار A3 يحقق أداءً متفوقًا مقارنةً بأحدث الأساليب (State of the Art). على سبيل المثال، عند استخدام ميزانية تقليل مماثلة، تحقق النموذج اللغوي LLaMA 3.1-70B بتحليل منخفض الرتبة من أداة A3 درجة تعقيد تبلغ 4.69 على بيانات WikiText-2، متفوقًا على الأداة السابقة بـ 3.18.

كما تم عرض تطبيقات متعددة لإطار A3 في ضغط الذاكرة المؤقتة (KV cache compression) ودمجه مع أساليب التكميم، وتعديل fine-tuning، وتعيينات الرتبة المختلطة. ولقد تم نشر الكود الخاص بالإطار مفتوح المصدر عبر الرابط: [https://github.com/DeepWok/a3](https://github.com/DeepWok/a3).

إذا كنتم مهتمين بتطورات الذكاء الاصطناعي وكيفية معالجة مشكلات تكلفة النماذج اللغوية، فلا تترددوا في مناقشة آرائكم في التعليقات.