في العصر الحديث للذكاء الاصطناعي، تُعتبر نماذج المحولات واحدة من أكثر التوجهات إثارة وإبداعاً. دراسة جديدة نُشرت على arXiv تتناول "البنية السببية للأبعاد في تمثيلات المحولات"، حيث تكشف عن كيفية تأثير الأبعاد المختلفة على أداء النماذج.

تُركز الدراسة على فكرة "المُشفِّر التلقائي النادر" (Sparse Autoencoders - SAEs)، التي تقوم بتفكيك مجاري النقل في نماذج المحولات إلى قواميس ميزات مفهومة. ومع ذلك، لم يكن من الواضح كيف يؤثر عرض هذه المُشفِّر على النتائج النهائية للنموذج.

قدمت الدراسة مفهوم الأبعاد السببية (causal dimensionality) المُعرفة بـ kappa(L, M, T)، والتي تمثل الرتبة الفعالة لمنتج جاكوبي الخارجي في مستوى معين. من خلال التجارب التي أجريت على نموذج Gemma-2-2B، تم استكشاف سعات مختلفة للمُشفِّر، حيث ارتفعت السعة التمثيلية بمعدل 15.6 مرة، بينما نمت السعة السببية بمعدل أقل بكثير بلغ 4.35 مرة، مما يكشف عن فجوة واضحة تُعرف بالـ "wedge التمثيلي - السببي".

أظهرت النتائج أيضاً أن معامل kappa يبقى ثابتاً رغم زيادة حجم النموذج، مما يبرز صفاته الداخلية القابلة للقياس في الطبقات. توصل البحث إلى أن ما يُسمى بالـ N_causal يبقى متطابقًا على مستويات عرض معينة، على الرغم من زيادة المعلمات بنسبة 3.46 مرة.

تمثل هذه النتائج خطوة هامة نحو فهم هيكل نماذج المحولات والتفاهمات الصحيحة حول كيفية عملها. تفتح هذه الاكتشافات أبواباً جديدة للبحث وتطويع التقنية في مجالات متعددة. ما هي تأملاتكم حول تأثير الأبعاد السببية على نماذج الذكاء الاصطناعي؟ شاركونا في التعليقات!