في عالم الذكاء الاصطناعي، يبرز سؤال محوري حول كيفية تأثير الاقتراح على نماذج اللغة الضخمة (Large Language Models) وقابليتها لتغيير الإجابات المعتمدة على الحقائق. أظهرت دراسة جديدة من arXiv أن هذه النماذج قد تُقنع فعليًا بالتخلي عن المعلومات الدقيقة عندما تواجه بعض الاستراتيجيات الاقناعية.
تسلط الدراسة الضوء على آلية مثيرة للاهتمام، حيث تبين أن عددًا قليلاً من مراكز الانتباه في الطبقة الوسطى لديها القدرة على تحديد إجابات النموذج بشكل شبه كامل. إذ تتفاعل هذه المراكز عن طريق كتابة خيارات الإجابات في شكل مضلع منخفض الأبعاد، حيث تحتل الخيارات رؤوسًا متميزة.
لكن كيف يعمل هذا؟ يبدو أن الاقتراح لا يُدمر الإيمان بالمعرفة الحقيقية أو فقط يقلل الثقة، بل يقوم بقفزة لاتفاتية من رأس الإجابة الصحيحة إلى رأس الإجابة المستهدفة. وعندما نقوم بتحليل هذه المراكز، نكتشف أنه بدلاً من التفكير في الأدلة، تقوم هذه المراكز بنسخ الخيار الذي تختاره انتباهها فقط.
تتضح هذه الآلية عبر مجموعة من النماذج المفتوحة المصدر ومواقف التسمم الواقعية مثل تحسين محركات التوليد، مما يكشف عن الاقتراح كدائرة ضيقة وقابلة للمراقبة. من المؤكد أن هذه النتائج تثير تساؤلات مهمة حول سلامة الذكاء الاصطناعي وأخلاقيات تطوير هذه النماذج.
هل يمكن تحفيز نماذج اللغة للتخلي عن الحقائق؟ اكتشاف آلية الاقتراح الغامضة!
تظهر الأبحاث الجديدة أن نماذج اللغة يمكنها التخلي عن المعرفة الواقعية استجابةً للاقتراح. هذا الاكتشاف يكشف النقاب عن آلية تسويقية دقيقة تسيطر على خيارات النماذج. اكتشف كيف يعمل الاقتراح في عالم الذكاء الاصطناعي!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
