في أحدث دراسة نشرت على منصة arXiv، تم الكشف عن جوانب جديدة في كيفية تأثير ضغط المصفوفات في نماذج التحويل (Transformers) أثناء مرحلة التدريب. من خلال تتبع تحليل القيم الفردية (SVD) لكل مصفوفة وزن على فترات زمنية، أظهرت الدراسة ثلاثة ظواهر رئيسية تعتبر ملاحظة جديدة في مجال الذكاء الاصطناعي.

**1. موجات ضغط مؤقتة:**
لاحظ الباحثون أن الضغط المرتبط بالرتبة ينتقل كموجة من الطبقات المبكرة إلى المتأخرة، مما يُحدث تدرجًا دراماتيكيًا. هذا التدرج يصل إلى ذروته في الطبقات المبكرة ثم يبدأ في الانعكاس بينما تتجاوز الطبقات المتأخرة ضغط الطبقات المبكرة.

**2. تدرجات طيفية دائمة:**
تظهر الدراسة أن الأُسّ القوة (power-law exponent) يُطوّر تدرجًا دائمًا عبر العمق، مما يؤدي إلى الانحدار غير المتناقص في النماذج الأعمق. هذه القمم تتحرك نحو الطبقات المبكرة مع زيادة العمق، مما يسلط الضوء على أهمية المكانة الطبقية في النماذج الكبيرة.

**3. عدم تماثل Q/K–V:**
تم الضغط على إسقاطات القيم/الناتج بشكل موحد، في حين أن إسقاطات الاستعلام/المفتاح تحمل الديناميات المرتبطة بالعمق بشكل كامل. هذا الانفصال بين الضغط المؤقت والشكل الطيفي الدائم يكشف عن معلومات أساسية مختلفة عن التدريب، مما يؤدي إلى نموذج ديناميكي ذو مقياسيين يُعتمد على قوانين قياس جديدة.

تُظهر النتائج المستندة إلى تسعة نماذج من ثلاث عائلات أن هذه القياسات توقّع أهمية الطبقات بدقة وتتفوق في الأداء على طرق اقتطاع مؤشرات أخرى. هذه الاكتشافات تمثل خطوة جديدة نحو تحسين النماذج وتحقيق فهم أعمق لكيفية عمل الذكاء الاصطناعي في التعامل مع مهام التعلم العميق.