تُعد المشفرات التلقائية النادرة (Sparse Autoencoders) أدوات أساسية لفهم نماذج اللغة الكبيرة (Large Language Models)، حيث تعتمد التقدمات في تصميم هذه المشفرات على معايير تقييم دقيقة تميز بين الأنواع المختلفة بشكل موثوق. ولكن، ماذا يحدث عندما تتعرض هذه المعايير للتدقيق والفحص؟

في دراسة حديثة تم نشرها على منصة arXiv، تم فحص معايير الجودة الخاصة بالمشفرات التلقائية النادرة الموجودة في مجموعة تقييم SAEBench، والتي تُعتبر معياراً قياسياً في المجال. تم استخدام ثلاث طرق تكميلية لتحليل هذه المعايير:
1. تحليل التشويش العشوائي على مشفر تلقائي محدد (reseed noise).
2. قياس العلاقة الحقيقية على المشفرات الاصطناعية (ground-truth correlation).
3. التمييز عبر مسارات التدريب (discriminability).

كشفت النتائج عن أن معيارين، وهما معالجة الاضطراب المستهدف (Targeted Probe Perturbation) وإزالة العلاقة الزائفة (Spurious Correlation Removal)، يفشلان في تحقيق نتائج موثوقة عند تطبيقهما. ولا يُستحسن استخدامهما في تقييم المشفرات الأوتوماتيكية. بينما أظهرت المعايير الأخرى مستويات أعلى من التشويش العشوائي وتمييز أقل مما كان يعتقده الباحثون في هذا المجال.

وفي نهاية المطاف، ثبت أن النسخة sae-probes من قياس $k$-sparse probing هي الأكثر موثوقية من بين المعايير التي تم اختبارها. لكن حتى هذه النسخة واجهت صعوبة في تمييز الفروقات بين الأنواع المختلفة من نفس بنية المشفر.

بالنظر إلى هذه النتائج، فإن مجال الذكاء الاصطناعي يحتاج بشدة إلى تحديث معايير تقييم المشفرات التلقائية النادرة لضمان جودة وأداء أفضل.