في عالم الذكاء الاصطناعي، تعتبر نماذج اللغة العملاقة (Large Language Models - LLMs) من العناصر الأساسية التي تدفع التطورات التقنية. ومع تزايد الاعتماد على هذه النماذج، تبرز الحاجة الملحة إلى تقنيات فعالة لتحجيمها وتخفيض تكاليف التنفيذ.

في هذا الإطار، تقدِّم الأبحاث الجديدة مفهوم "SAGE-PTQ" (تحجيم الكميات المعتمدة على الملاحظة المعززة باستخدام الرسوم البيانية)، الذي يمثل إطارًا مبتكرًا للتحجيم يقلص التكاليف الخفية. تعتمد هذه الطريقة الجديدة على فصل الأوزان البارزة (Salient Weights) عن الأوزان غير البارزة (Unsalient Weights) باستخدام إحصاءات التوزيع، مما يمكنها من إعادة تصميم الأوزان غير البارزة كنموذج فرعي لتقدير العدد الأمثل من المجموعات لكل طبقة.

تتميز SAGE-PTQ بتطبيق ترميز مزدوج، حيث تُعطى الأوزان البارزة دقة متعددة البتات بينما يتم تحويل الأوزان غير البارزة إلى ثنائية. ولتقليل تكاليف التحجيم، تعتمد الوظيفة على استخدام مقياس لكل قناة يتم تطبيقها على الأوزان البارزة وآخر ثابت لكل مجموعة غير بارزة.

ما يميز هذه التقنية هو تنفيذ عتبة ملاحظة ديناميكية لاختيار النسبة المثلى للملاحظة لكل مصفوفة. ونتيجة لهذا التطور، تحقق SAGE-PTQ معدل 1.03 بت لكل وزن و0.004 بت للتحجيم لكل مصفوفة، متفوقةً بذلك على الأساليب الحالية مثل BiLLM وPB-LLM.

عند تطبيق SAGE-PTQ على نموذج LLaMA-3-8B، تم تحقيق تقدير درجة 6.74 على WikiText2، مما يمثل تحسنًا كبيرًا مقارنة بـ 55.8 لنموذج BiLLM، مع الاستفادة من أقل من 50% من ذاكرة GPU المستخدمة في BiLLM. وفي نموذج LLaMA-2-70B، أظهرت SAGE-PTQ كفاءة عبر تسريع عملية فك الترميز بمعدل 1.5x باستخدام بطاقة NVIDIA L40، مما يعكس قدرة عملية على تقديم أداء أفضل.