في ساحة الذكاء الاصطناعي، تكشف الأبحاث الحديثة عن ظاهرة مثيرة للاهتمام تُعرف باسم "ارتباك الأدوار". في هذه الظاهرة، لا تعتبر نماذج اللغات الضخمة (LLMs) النصوص مجرد بيانات، بل تفسرها استنادًا إلى كيفية تبدو عليها، مما يؤدي إلى نتائج غير متوقعة.
قام الباحثون بتحليل كيف يمكن لضغوط الحصول على تعليمات مخفية ضمن صفحات الويب أن تختطف نموذجًا ذكياً بشكل غير متوقع. فعلى الرغم من تصنيف النصوص، إلا أن النموذج يمكن أن يسيء فهم مصدر النص بناءً على كيفية تداخلها مع الأدوار الهامة. وبواسطة قياسات معينة، توصل الباحثون إلى أن النصوص المحقونة تشغل نفس المساحة التمثيلية كالأدوار الموثوقة التي تحاكيها.
ظهر ذلك بوضوح من خلال هجوم يُعرف باسم "تزييف سلسلة التفكير" (CoT Forgery)، والذي يعد هجومًا بلا مقدمة يقوم بحقن استنتاجات مُلفقة ضمن التعليمات المدخلة وفوائد الأداة. إلا أن الأمر الأكثر إثارة هو أن هذه النماذج كانت تخطئ في تمييز التزييف كأفكار خاصة بها، مما يسفر عن معدل نجاح هجوم يصل إلى 60% ضد نماذج رائدة.
الأهم من ذلك، أن مستوى ارتباك الأدوار في النموذج يمكن أن يتنبأ بنجاح الهجوم حتى قبل بدء عملية التوليد نفسها. وهذا يشير إلى أن سخونة الحديث عن الأدوار يمكن أن تكون متقاربة للغاية من كونها جزءًا منها.
بدون شك، تشكل هذه النتائج خطوة مهمة نحو فهم التحديات التي يواجهها الذكاء الاصطناعي وكيفية تأثر قراراته بالتداخل في الأدوار. كيف سيؤثر ذلك على تطوير نماذج مستقبلية؟
خداع الأدوار في الذكاء الاصطناعي: كيف يمكن للكلمات أن تضلل النماذج؟
تظهر دراسة جديدة كيف يمكن لحقن الأوامر أن تؤدي إلى ارتباك في الأدوار لدى نماذج اللغات الضخمة (LLMs)، مما يمكنها من اعتقاد أن النص المحقون ينتمي إلى إحساس موثوق به. هذا التطور قد يغير قواعد اللعبة في مجال الذكاء الاصطناعي!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
