في ظل الحاجة المتزايدة لتحسين الأداء وتقليل تكاليف الاستدلال في نماذج الذكاء الاصطناعي، يبرز HEAPr كحلّ مبتكر يستهدف تحسين نماذج Mixture-of-Experts (MoE). بينما تُظهر هذه النماذج أداءً استثنائيًا مقارنةً بنماذج اللغات الضخمة (LLMs) التقليدية، إلا أن كميات المعلمات الكبيرة تجعل استغلالها في التطبيقات الحقيقية تحديًا كبيرًا بسبب المتطلبات الكبيرة للذاكرة.

تقدم HEAPr أسلوبًا ثوريًا في حذف الخبراء، حيث يقوم بتفكيك الخبراء إلى خبراء ذريين أصغر حجمًا وغير قابلين للتفكيك. يسمح هذا الأسلوب بحذف أكثر دقة ومرونة، مما يحسن من كفاءة النموذج دون التضحية بالدقة. بالاستناد إلى نظرية جراح الدماغ المثلى، يقيس HEAPr أهمية كل خبير ذري باستخدام معلومات من الدرجة الثانية.

مع التعامل مع التحديات الحسابية والتخزينية المرتبطة بمعلومات الدرجة الثانية، يقوم HEAPr بتحويل هذه المعلومات من معلمات الخبراء إلى معلمات الخبراء الذريين، مما يُبسط العملية إلى معلومات الدرجة الثانية لإخراج الخبراء الذريين. هذه الطريقة تسهم في تقليل التعقيد المكاني من O(d^4) إلى O(d^2) حيث d هو أبعاد النموذج.

باستخدام HEAPr، يتطلب الأمر فقط إجراء تمريرتين للأمام وتمريرة واحدة للخلف على مجموعة معايرة صغيرة لحساب أهمية الخبراء الذريين. أثبتت التجارب المكثفة على نماذج MoE، بما في ذلك DeepSeek MoE وعائلة Qwen MoE، أن HEAPr يتفوق على الطرق الحالية لحذف الخبراء في مجموعة واسعة من نسب الحذف والاختبارات.

ليس ذلك فحسب، بل يحقق HEAPr ضغطًا تقريبًا دون فقدان (lossless) بنسبة تصل إلى 20% ~ 25% في معظم النماذج، مع تقليل FLOPs بنحو 20%. لمزيد من التفاصيل، يمكنك زيارة الكود المتاح على GitHub عبر الرابط [رابط_المقال].