تمتاز نماذج الترميز التلقائي الضعيفة (Sparse Autoencoders) بدورها الحيوي في تفسير نماذج اللغات الضخمة (Large Language Models) من خلال تحليل الاستجابات وتحويلها إلى ميزات مفهومة بشكل إنساني. إلا أن استخدامها على نطاق واسع يواجه تحديات جوهرية تتعلق بتفكيك الميزات (Feature Splitting) وامتصاصها (Feature Absorption).

تشير الدراسات المنهجية إلى أن هذه المشكلات تنتج عن توزيع غير متسق للميزات عبر العينات، مما يسمح لمفهوم واحد بالتوزيع بطريقة غير متقاربة عبر ميزات غير متناهية. في محاولة للتغلب على هذه التحديات، تم تقديم مفهوم C²R (Cross-sample Consistency Regularization) الذي يشجع بشكل صريح على تمثيل كل ميزة دلالية بواسطة كيان لاتنت (Latent) موحد عبر المجموعة.

باستخدام C²R، يتم فرض عقوبات على التفاعل المزدوج بين الميزات المتشابهة، مما يساعد على تقليل كل من تفرقة وامتصاص الميزات مع الحفاظ على جودة التجديد (Reconstruction Fidelity).

تجارب شاملة تثبت فعالية C²R في تعزيز القدرة على تفسير الميزات المخفية دون التأثير على أداء النموذج، مما يخلق حلاً مبدعاً للتحديات العرضية مما يساعد الباحثين والمطورين في استغلال نماذج اللغات الضخمة بكفاءة أكبر.

لمزيد من التفاصيل، يمكنكم زيارة صفحة الشيفرة المصدرية على GitHub.