في الآونة الأخيرة، تم تسليط الضوء على أهمية تحسين كفاءة استدلال نماذج اللغات الضخمة (Large Language Models) من خلال تقليم العمق. هذا الإجراء يشمل إزالة الكتل في نماذج "Transformer" بهدف تعزيز الأداء دون المساس بالنتائج النهائية. ولكن السؤال المطروح: هل تُعتبر تكرارات الطبقات خاصية بنائية بحتة للنماذج المدربة مسبقًا؟

في معظم الأعمال السابقة، كان هناك تركيز كبير على معايير الأهمية وخوارزميات البحث التي تهدف إلى تحديد الطبقات القابلة للإزالة، ولكن هذه الدراسة تأخذ زاوية مختلفة. من خلال اعتماد منظور وظيفي، يتم الإشارة إلى أن التكرار يعتمد بالأساس على نموذج معين وهدف المعايرة المستخدم، مما يقترح أن تصنيف الطبقات بشكل عالمي قد لا يكون ممكنًا.

عبر إجراء دراسة تجريبية على ثلاث عائلات من نماذج اللغات الضخمة، وهدفين للمعايرة، وسبع خوارزميات بحث، تم التوصل إلى نتائج مذهلة. كانت الأنماط الناتجة عن الأهداف المختلفة تظهر اختلافات نوعية مميزة، حيث اكتُشف أن تصنيفات التعقيد (Perplexity) ودقة التفكير لاحقًا غالبًا ما تفشل في التوافق. ومع ذلك، تحت هدف ثابت، كانت خوارزميات البحث المختلفة تقارب حلولًا متشابهة للتقليم.

تشير النتائج العامة إلى أن هدف المعايرة يمكن أن يلعب دورًا أكبر في تحديد الطبقات التي تبدو زائدة عن الحاجة مقارنة بالخوارزميات المستخدمة في البحث. هذا الاكتشاف يفتح آفاقًا جديدة في كيف يمكن تقييم وإعادة تصميم نماذج الذكاء الاصطناعي لتحقيق كفاءة أعلى.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات!