أصبح توجيه تنشيط نماذج اللغات الضخمة (Large Language Models) من التقنيات الشائعة في التحكم بنماذج الذكاء الاصطناعي، حيث يُستخدم لتعديل تنشيطات النموذج بهدف إحداث تغيير تغييري في سلوكه. تعتبر هذه الطريقة أداة أساسية في أبحاث التفسير (Interpretability) والأمان (Safety) في الذكاء الاصطناعي، إلا أن التساؤل يظل قائمًا: هل يمكن تحقيق السلوك المؤثر من أي عبارة نصية مقدمة؟
يطرح البحث تساؤلات عميقة حول إمكانية هذا التوجيه، حيث تم تصنيف السؤال في إطار مشكلة الشمولية (Surjectivity Problem): هل كل تنشيط مُوجه يمكن أن يُظهر أثرًا في المخرجات إذا ما مرّت بالعملية الطبيعية للنموذج؟
وفقًا للنتائج التي تشير إليها الدراسة، فإن توجيه التنشيط قد يدفع تدفق المتبقي بعيدًا عن مجموعة الحالات القابلة للوصول من خلال عبارات مُحددة، مما يعني أنه بشكل شبه مؤكد، لا يمكن لأي عبارة أن تعيد إنتاج نفس السلوك الداخلي الناتج عن ذلك التوجيه.
تظهر التجارب المُنجزة على ثلاثة نماذج لغوية شائعة، وجود فصل منطقي بين قدرة التوجيه في النماذج الشفافة (White-Box) والتفاعل في النماذج السوداء (Black-Box). تدعو هذه النتائج إلى الحذر في تفسير سهولة ونجاح توجيه التنشيط كدليل على قدرة النماذج على التفسير بناءً على العبارات، وتؤكد الحاجة إلى بروتوكولات تقييم تفصل بين التداخلات الشفافة والسوداء.
تأتي هذه الدراسة لتطرح تساؤلات جديدة حول حدود إدراك الإنسان لقدرات الذكاء الاصطناعي، وما إذا كانت هذه القدرات يمكن بالفعل استغلالها بفعالية، مما يفتح المجال أمام نقاشات مستقبلية حول أخلاقيات الذكاء الاصطناعي واستخداماته في التطبيقات المختلفة.
توجيه تنشيط نماذج اللغات الضخمة: هل يمكن تحقيق السلوك المنشود؟
يركز البحث على تقنيات توجيه التنشيط في نماذج اللغات الضخمة، ويطرح تساؤلات حول قدرة تلك التقنيات على تحقيق سلوك معين. النتائج تشير إلى صعوبة تحقيق التغييرات بدقة من خلال العبارات النصية فقط.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
