في عالم الذكاء الاصطناعي، تبرز نماذج اللغات الضخمة (Large Language Models) بقدرتها على التعامل مع البيانات اللغوية بفعالية عالية. ومع ذلك، كشفت دراسة حديثة عن مشكلة مثيرة للاهتمام تتعلق بانحياز الإفراط في الاتصال، حيث تظهر هذه النماذج ميلًا مستمرًا لاستدعاء الأدوات (tools) حتى في الحالات التي لا تتطلب ذلك.

تُظهر نتائج دراسة يتم الإبلاغ عنها عبر منصة arXiv، أن ستة نماذج تنتمي إلى ثلاث عائلات تظهر دقة متوسطة عندما يتعلق الأمر باستدعاء أدوات، لكن دقة عدم استدعاء الأدوات كانت أقل بكثير. تراوحت الدقة الكلية بين 55% و70%.

تفسر الدراسة هذا الانحياز من خلال فرضية الانحياز الداخلي (Intrinsic Bias Hypothesis - IBH)، حيث يتمثل في أن القرار الخاص بالاتصال أو عدم الاتصال يحمل «إزاحة اتصال» مستقلة عن التنشيط، مما يعني أن النماذج تميل أكثر للاتصال حتى وإن كانت قدرات التنشيط متساوية.

من أجل معالجة هذه المشكلة، تم استخدام المحولات النادرة (Sparse Autoencoders - SAEs) لاستعادة الخصائص المرتبطة بسلوك النماذج في اتخاذ قرارات الاتصال، مع تقليصها إلى هامش تنشيط مضمن وتقدير الإزاحة بشكل مباشر. أثبتت النتائج أن النموذج يكون محايدًا فقط عندما يتفوق تنشيط «عدم الاتصال» على تنشيط «الاتصال»، بما يتماشى مع فرضية IBH.

لمعالجة هذا الانحياز، تم اختبار فرضية IBH بشكل سببي باستخدام تقنية توجيه الهامش المعاكس (Adaptive Margin-Calibrated Steering - AMCS)، والتي توفر تعديلات فعالة على قرار الاتصال، مما ساهم في تقليل الإفراط في الاتصال وتحسين الدقة العامة للنماذج مع انخفاض طفيف في دقة الاتصال.

هذا البحث يسلط الضوء على كيفية إعادة تفسير الإفراط في الاتصال كظاهرة يمكن معالجتها من خلال خطوات ميكانيكية وعلمية. يتيح ذلك للنماذج تحسين أدائها وتعزيز موثوقيتها في المستقبل.

للمهتمين بالتفاصيل التقنية، يمكنكم الاطلاع على الكود البرمجي المتاح على موقع GitHub هنا. فما رأيكم في هذا التطور؟ شاركونا في التعليقات!