في عالم نماذج اللغة الضخمة (Large Language Models)، يأتي مفهوم جديد يقلب الكثير من المفاهيم التقليدية. تم تصنيف 'المقاومة الذاتية للتوجيه' (Endogenous Steering Resistance - ESR) كقدرة هذه النماذج على استعادة الانخراط مع الموضوعات الصحيحة حتى في حالة وجود توجيهات موجهة بشكل غير صحيح.

خلال دراسة حديثة، تم اختبار نموذج Llama-3.3-70B، حيث لوحظ أنه يحقق مقاومة الذات بمعدل تجاوز مثير للإعجاب، والذي يعكس كيفية استجابته السريعة والتفاعلية للأحداث غير المتوقعة أثناء عملية توليد النصوص. بينما أظهرت نماذج أصغر من عائلتي Llama-3 وGemma-2 هذه المقاومة بشكل أقل، فإن الظاهرة تظل مثيرة للإعجاب.

تجري الأبحاث باستخدام آلات ترميز تلقائي نادرة (Sparse Autoencoder - SAE) لضبط نشاطات النموذج، حيث أُشير إلى أن هذه النماذج تمتلك القدرة على إنتاج عبارات تصحيحية مثل "انتظر، هذا ليس صحيحًا".

تسليط الضوء على هذا الاكتشاف قد يعزز من سلامة نماذج الذكاء الاصطناعي، حيث يمكن أن تجعلها أكثر مقاومة للهجمات السلبية من خلال التوجيه المستمر، وفي الوقت ذاته تثير القلق بشأن التدخلات المفيدة القائمة على التوجيه، إذ يصعب على النموذج التمييز بين الإيجابي والسلبي.

في الخلاصة، إن 'المقاومة الذاتية للتوجيه' تقدم فرصاً وتحديات جديدة للباحثين والمطورين في هذا المجال، وننتظر بشغف ما ستؤول إليه النتائج المعمقة في هذا الاتجاه.