تعتبر نماذج مزيج الخبراء (MoE) من أبرز الابتكارات في عالم الذكاء الاصطناعي، إذ توفر قدرة حسابية فعالة لكنها تظل مكلفة من حيث التوزيع بفضل بصمتها الكبيرة على الذاكرة وزيادة زمن الاستدلال. وقد تركزت الطرق التقليدية لتقليص حجم هذه النماذج على مستوى الخبراء، حيث يتم إما إزالة خبراء كاملين أو تصنيفهم استنادًا إلى نقاط أهمية خشنة. ومع ذلك، فإن اتخاذ قرارات بهذا الشكل غالبًا ما يكون غير كافٍ لالتقاط الفائض الفائق الرفيع، مما يؤدي إلى سوء توزيع الميزانيات وتقليص محدود.

للحد من هذه المشكلة، توصل الباحثون إلى أن المعلومات داخل خبراء (MoE) مركزة بشكل كبير في مجموعة صغيرة من القنوات، مما يترك فائضًا كبيرًا حتى في الخبراء الذين يعتبرون مهمين. بناءً على هذه الملاحظة، تم اقتراح إطار عمل للقص الهيكلي مصمم خصيصًا لنماذج (MoE). حيث يعيد منهجنا صياغة تخصيص نسبة القص كمشكلة تعظيم تغطية نقاط القناة، ويتم حلها بكفاءة باستخدام تقارب مستند إلى الاستدلال.

تجارب على نماذج DeepSeek وQwen MoE أثبتت أن منهجنا يحافظ على دقة النموذج حتى عند تنفيذ قص هيكلي بنسبة 50% أو 25% عندما يقترن مع التكميم بثمانية بت. كما أن تطبيق طريقتنا على Qwen3-30B-A3B قلل من بصمة الذاكرة بمقدار 5.27 مرة، متفوقًا باستمرار على الأسس المتطورة في مختلف المعايير. إن هذه النتائج تفتح آفاقاً جديدة في عالم نموذج الخبراء، مما يعزز قدرتها على التوسع والاستخدام العملي دون فقدان كفاءة الأداء.