في عالم الذكاء الاصطناعي، تتسابق الشركات والمؤسسات لتحقيق تغييرات جذرية في كيفية عمل نماذج اللغة الضخمة (Large Language Models). في هذا السياق، تمثل تقنية CLP (تنبؤ طول التجمع) خطوة متقدّمة نحو تجاوز العقبات التي تواجه استنتاجات هذه النماذج. إن عملية الاستنتاج الاعتمادي (autoregressive decoding) غالباً ما تكون مقيّدة، حيث يتطلب كل رمز عملية تنفيذ كاملة، ما يسبب بطءاً في الأداء.

تتجه الأنظار إلى تقنية التنبؤ المتعدد الرموز (Multi-Token Prediction) التي تعد بمستقبل واعد في تسريع هذه العمليات. ومع ذلك، تعاني الأساليب الحالية من عيب معماري جوهري حيث تتنافس رأس MTP للرمز الأول مع رأس النموذج اللغوي (LM) للنموذج التحتي، مما يؤدي إلى تدهور كبير في جودة المخرجات.

لحل هذه المشكلة، قدم الباحثون مبدأ تصميم جديد يسمى 'Backbone-as-Architect'، حيث يقوم رأس LM الخاص بالنموذج التحتي دائماً بتوليد الرمز الأول، بينما تركز رؤوس MTP فقط على الرموز اللاحقة. بناءً على هذا المبدأ، تم تقديم CLP كطبقة قرار خفيفة على مستوى النطاق، تتنبأ بعدد الرموز الإضافية التي يمكن قبولها بأمان في كل خطوة من خطوات الاستنتاج.

تستخدم CLP طبقة خطية واحدة تحتوي على 4,600–7,700 معاملًا، لتستبدل الشبكات البوابة المعقدة التي تضم مليوني معامل في الأعمال السابقة. أظهرت التجارب على نماذج Qwen2.5 (0.5B، 1.5B، 7B) أن CLP يحقق تسريعاً يتراوح بين 1.20x و1.29x على نموذج 1.5B، و1.14x و1.20x على نموذج 7B، دون أي تدهور في الجودة (نسبة التكرار 0.5%).

وضمن نتائج التجارب، تبيّن أن آفاق التنبؤ الأقصر (k=2) تستعيد 24% دقة أكبر لرأس MTP على النماذج الكبيرة، مما يؤكد مبدأ التصميم الواعي للتوسع. تعد دقة تنبؤ رأس MTP هي القيد الأساسي على التسريع، مما يحدد خارطة طريق واضحة للتحسينات المستقبلية في هذا المجال المثير للاهتمام.