أظهرت الأبحاث الحديثة أن الترميزات النادرة (Sparse Autoencoders) أصبحت أدوات مفيدة لفهم كيفية التحكم في المفاهيم في نماذج الذكاء الاصطناعي. في دراسة جديدة، تم تقييم فعالية هذه التقنيات في سياق محو العناصر المحددة وتوجيهها داخل نماذج الانتشار.

تُظهر النتائج أن الترميزات النادرة يمكنها الكشف بدقة وتحديد المفاهيم الدلالية في تفاعلات نماذج الانتشار، ولكن عند محاولة التدخل في الفضاء الكامن الخاص بها، فإن ذلك يؤدي في كثير من الأحيان إلى تنشيط غير ذي صلة، مما ينتج عنه عوائق بصرية خطيرة.

للقيام بفصل عملية الكشف عن عملية التدخل، تم استخدام تفاعلات الترميزات النادرة ككاشفات دلالية فقط لتحديد المناطق التي تحتوي على الهدف، واستبدال تلك الرقع بتلك التي لا تحتوي عليه. إن هذا الأسلوب المتمركز حول الكشف يحافظ على إحصاءات تنشيط نموذج الانتشار ويُنتج نتائج محو أنظف بكثير.

تكشف هذه النتائج عن فجوات أساسية بين اكتشاف المفاهيم والتدخل بها في نماذج الانتشار، مما يشير إلى أن الميزات أحادية المعنى أو النادرة ليست بالضرورة مناسبة كأدوات للتحكم. تسلط الأضواء على أهمية الترميزات النادرة كأدوات قوية لفهم النماذج التوليدية، بينما تبرز التحديات الكبيرة عند استخدامها للتحكم المباشر، مثل محو المعلومات.