في عالم يتزايد فيه الاعتماد على النماذج المتقدمة للذكاء الاصطناعي (AI)، أصبح الحفاظ على الوعي الذاتي أمراً بالغ الأهمية. تعتبر قدرة النماذج على فهم ما لا تعرفه، واكتشاف الأخطاء، وطلب التوضيح تحت ضغط التهديدات العدائية واحدة من المتطلبات الأساسية للسلامة. في دراسة جديدة نُشرت على arXiv، تم التركيز على مشكلة أكثر جذوراً من الخداع الاستراتيجي، ألا وهي 'الانهيار المعرفي'. وضعت الدراسة نظام تقييم يحمل اسم SCHEMA، حيث تم تحليل 11 نموذجًا من 8 بائعين، مع تقييم 67,221 سجلًا باستخدام تصميم تجريبي مكون من 6 شروط.
وكشفت النتائج المثيرة أن 8 من أصل 11 نموذجًا تعرضت لتدهور كارثي في الوعي الذاتي تحت الضغط العدائي، حيث انخفضت الدقة بنسبة تصل إلى 30.2 نقطة مئوية. ولعل الأهم هو الكشف عن مفهوم 'فخ الالتزام': الذكاء الاصطناعي يعاني من انهيار معرفي ليس فقط بسبب ضغوط التهديد، بل بسبب تعليمات ملزمة تتجاوز حدود المعرفة. ومن المثير للدهشة، أن إزالة هذه التعليمات أعادت أداء النماذج حتى في ظل التهديدات النشطة.
تمتاز النماذج ذات القدرات الاستدلالية المتقدمة بأكثر تدهور نسبي، بينما يُظهر نموذج 'AI الدستوري' من Anthropic مناعة قريبة من الكمال ليس بسبب قدرات متفوقة، ولكن بسبب التدريب الخاص بالتوافق.
تم تقديم مجموعة البيانات كاملة والبنية التحتية للتقييم للجمهور، مما يفتح المجال لمزيد من الأبحاث والتحليلات في هذا المجال المعقد.
فخ الالتزام: كيف تؤثر القيود الهيكلية على الوعي الذاتي للذكاء الاصطناعي تحت ضغط التهديدات
تظهر دراسة جديدة أن النماذج المتقدمة للذكاء الاصطناعي تفقد قدرتها على الوعي الذاتي عند مواجهة ضغوط عدائية. كشف البحث عن فخ الالتزام الذي يزيد من تدهور الأداء في تلك النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
