في الآونة الأخيرة، أقام الباحثون ثورة جديدة في مجال تخزين الكاش في نماذج الذكاء الاصطناعي، حيث تم تقديم خوارزمية OSCAR: Offline Spectral Covariance-Aware Rotation. تهدف هذه التقنية إلى تحسين أداء نماذج اللغات الضخمة (Large Language Models) من خلال استخدام الطرق المنخفضة البت (Ultra-low-bit) في عملية التخزين.

بينما كانت تقنيات مثل التدوير البسيط (Simple Rotations)، مثل تحويلات هادامارد، تعمل على تقليل القيم الشاذة، إلا أنها لا تزال تُظهر تدهوراً في الأداء عند استخدام INT2، حيث لا تتماشى مع الانتباه التفاعلي (downstream attention). ومع ذلك، تقدم OSCAR طريقة مبتكرة لحل هذه المشكلة من خلال تقدير البنى التلافيفية (Covariance Structures) التي تأخذ في الاعتبار الانتباه.

تقوم الخوارزمية OSCAR بتحديد دورات ثابتة وفواصل قص (Clipping Thresholds) لتخزين الكاش، مما ينسجم مع البنى التي يحتاجها الانتباه الفعلي. بالإضافة إلى ذلك، يوجد تبرير نظري لهذه المنهجية، كما تم تطوير نظام OSCAR بالكامل بحيث يتماشى مع أنظمة الخدمة الحديثة مثل SGLang و vLLM.

تم تقييم طرق OSCAR على نماذج تفكير حديثة بأثر تصل إلى 32 ألف توكن عبر 5 مهام مختلفة. وأسفرت النتائج عن تقليص الفجوة في دقة BF16 إلى 3.78 و1.42 نقطة على التوالي، بينما انهار الأداء مع التقنيات التقليدية المتمثلة في التدوير البسيط. وعند تطبيق OSCAR على نماذج أكبر مثل Qwen3-32B و GLM-4.7، أظهرت النتائج تفوق أداءً في الدقة.

على صعيد النظام، ساهمت OSCAR في تقليل استهلاك ذاكرة تخزين الكاش بحوالي 8 مرات، وزيادة الإنتاجية حتى 7 مرات أثناء العمل بأحجام دفعات كبيرة، مع تسريع عملية فك الشيفرة بحجم دفعة يبلغ 1 حتى 3 مرات مقارنةً بـ BF16. هذه التطورات تفتح آفاق جديدة في عالم الذكاء الاصطناعي، مما يعزز كفاءة نماذج اللغات الكبيرة.

في ضوء هذه الابتكارات، ما رأيكم في قدرة OSCAR على تغيير مستقبل نماذج الذكاء الاصطناعي؟ شاركونا في التعليقات.