تشهد تقنيات الذكاء الاصطناعي تقدمًا مستمرًا، ومن أبرز الابتكارات الجديدة هي تقنية SpecKV التي تسهم في تسريع استنتاج نماذج اللغات الكبيرة (Large Language Models) عبر استخدام تدوين تخميني متكيف.

تعتمد هذه التقنية على نموذج صغير يقوم باقتراح رموز مرشحة، حيث يقوم نموذج أكبر بالتأكد من صحة هذه الرموز. أحد المتغيرات الحاسمة في هذه العملية هو طول التخمين (speculation length) والذي يُحدد عدد الرموز التي يقترحها النموذج draft في كل خطوة.

تشير الأبحاث إلى أن معظم الأنظمة الحالية تستخدم قيمة ثابتة لطول التخمين (عادةً ما تكون 4)، ولكن الأدلة التجريبية تثبت أن القيمة المثلى تختلف باختلاف أنواع المهام، وتعتمد بشكل كبير على مستوى الضغط المُطبق على النموذج المستهدف.

تقدم الورقة البحثية **SpecKV** كتحكم خفيف الوزن يتكيف مع كل خطوة تفكر فيها، مستخرجًا إشارات مباشرة من النموذج draft نفسه. تم إجراء تقييم شامل للتدوين التخمين عبر 4 فئات من المهام و4 أطوال تخمين و3 مستويات ضغط (FP16، INT8، NF4)، حيث تم جمع 5112 سجلًا على مستوى الخطوة مع معدلات القبول وغياب المعلومات وثقة النموذج draft.

ثبتت النتائج أن الطول الأمثل للتخمين يتغير حسب مستويات الضغط، وأن ثقة النموذج draft وغموضه يعدان مؤشرات قوية لمعدل القبول.

تستخدم SpecKV شبكة صغيرة مدربة على هذه الإشارات لتعظيم عدد الرموز المتوقع في كل خطوة تخمين، محققة تحسينًا بنسبة 56.0% مقارنةً بالقيمة الثابتة لطول التخمين 4، مع تكلفة زمنية أقل من 0.34 مللي ثانية لكل قرار.

بالإضافة إلى ذلك، تم إثبات أن هذه التحسينات ذات دلالة إحصائية قوية (p < 0.001).

كما تم إصدار جميع بيانات التقييم والنماذج المُدربة كأعمال مفتوحة المصدر، مما يعزز الشفافية ويساهم في تقدم مجتمع الذكاء الاصطناعي.