في عالم الذكاء الاصطناعي، تبرز نماذج ترانسفورمر كأحد أعمدة التطور التقني. ومن بين هذه النماذج، تُعتبر تلك ذات الديكودر فقط (decoder-only transformers) مثيرة للاهتمام، لأنها تميز بين الموضع المطلق (absolute position) في أنماط الانتباه (attention patterns) على الرغم من أن تقنية RoPE (Rotary Position Embeddings) لا ترمز إلا للازاحات النسبية.

تتبع هذه الدراسة مصدر هذا التسرب المعلوماتي إلى مكونين معماريين رئيسيين. الأول هو قناع السببية (causal mask) الذي يلعب دورًا حيويًا، حيث يعتمد مقام softmax المخصص لكل استعلام (per-query) على الموضع المطلق للاستعلام بناءً على التصميم المعماري للنموذج.

أما المكون الثاني، فهو تدفق البيانات (residual stream) الذي يعمل كحلقة مغلقة على تنشيط الموضع رقم 0، حيث يتفاعل مع نفسه فقط، مما يمكنه من دمج المعلومات من الاشتقاق الأصلي للكلمة عند ذلك الموضع. هذه الآليات المعمارية متواجدة في جميع الهياكل الثلاثة التي قمنا بدراستها، مع توازن معماري محدد لكل منها. تولّد تقنيات NTK توسيعًا يحد من المكونات المنسوبة لتدفق البيانات، بينما يسمح الانتباه بنمط النافذة المنزلقة (sliding-window attention) بتراكم المعلومات مع العمق، ويشغل RoPE الوضع المتوسط بينهما.

من المثير للاهتمام أيضًا، أن استبدال تضمين ما قبل بداية السلسلة (BOS) قبل عملية التمرير إلى الأمام (forward pass) يؤدي إلى إزالة 40% من المكون المنسوب في الاستفسارات المبكرة. تعتبر ما يسمى برؤوس الانتباه (attention sinks) مثبتات مرتكزة على الرموز، تعمل على نقل بصمة حدسية محددة للرمز في الموضع رقم 0، والتي تبقى ثابتة عبر المدخلات عندما يكون هذا الرمز هو الـBOS، بينما تتنوع مع غيره.

في ختام استكشافنا، نرى أن الفهم العميق لهذه الآليات المتنوعة يُظهر كيف يمكن لتصميم النموذج أن يؤثر على أداء الأنظمة الذكية. ما هي آراؤكم بشأن هذه الاكتشافات المعمارية؟ شاركونا تجاربكم وأفكاركم في التعليقات.