في عالم الذكاء الاصطناعي، تعد نماذج ترميز النصوص (Text Embeddings) من الأدوات الأساسية لفهم اللغة وتوليدها. ومع ذلك، أشارت الدراسات الحديثة إلى وجود انحياز ثاوي في هذه النماذج، حيث يظهر كل ترميز نصي (Embedding) كأنه يتكون من مكونات ثابتة تمثل انحيازاً متوسطاً مماثلاً بين جميع الجمل.

تبحث هذه المقالة في طريقة جديدة لتصحيح هذا الانحياز باستخدام طريقتين لا تتطلبان تدريبًا إضافيًا: الطريقة الأولى تتضمن طرح المتوسط (R1)، بينما الثانية تعتمد على إسقاط كل ترميز بعيدًا عن اتجاه المتوسط (R2). تشير النتائج إلى أن R2 تحقق مكاسب تصنيفية ملموسة، مع تحسينات ثابتة في 29 من أصل 38 نموذج، دون أي خسائر.

لقد تم إجراء تحليلٍ دقيقٍ لتحديد كيفية تأثير هذه الأساليب، حيث أظهرت النتائج أن إزالة الاتجاه الواحد بشكل معتدل تعود بالنفع، في حين أن استخدام تحليل المكونات الرئيسية (PCA) الكامل كان له تأثير سلبي على أداء النماذج.

تعتبر هذه النتائج خطوة مهمة نحو تحسين أداء نماذج الذكاء الاصطناعي في معالجة اللغة، مما يفتح آفاقًا جديدة للبحث والتطوير في هذا المجال الديناميكي.