ما هو EntropyInfer؟
تم تصميم EntropyInfer كنموذج لا يحتاج إلى تدريب مُسبق كما أنه يعتمد على تحليل الفوضى (Entropy) لتخصيص الموارد بطريقة ديناميكية. يظهر هذا النظام نوعين متميزين من سلوك الانتباه بين الرؤوس: الرؤوس الصلبة (Rigid Heads) التي تبقي على قيمة فوضى قريبة من الصفر، والرؤوس الديناميكية (Dynamic Heads) التي تتذبذب فوضاها بشكل ملحوظ. يمنح هذا النهج EntropyInfer القدرة على تحقيق تخصيص موارد أكثر فعالية بناءً على السياق المحدد.
كيف يعمل نظام EntropyInfer؟
يعمل النظام على تعزيز عملية رأسمال العلم (Compute) على مستوى الرؤوس والأقسام الفردية أثناء مرحلة التحضير (Prefilling). غير ذلك، يتم تقديم أسلوب ضغط الذاكرة المخفية (KV cache) الذي يستفيد من رموز المخرجات المولدة بدلاً من الرموز المحضرة فقط، ما يعزز القدرة على التعرف على وحفظ أهم مدخلات الذاكرة.
النتائج والتجارب
أظهرت مجموعة من التجارب التي أجريت على نماذج Llama وQwen وopenPangu أن EntropyInfer يتفوق باستمرار على النماذج التقليدية مثل SnapKV وAdaKV وCritiPrefill، محققًا تسريعاً يصل إلى 2.39 مرة في الأداء خلال المعالجة للنصوص التي تتجاوز 100,000 رمز، مع الحفاظ على جودة عالية مقارنةً بالانتباه الكامل.
إن مشروع EntropyInfer، الذي تم إصداره برمز متاح على GitHub، يعد خطوة هامة نحو تحسين فعالية النماذج اللغوية.
**ما رأيكم في هذا التطور؟ شاركونا في التعليقات!**
