في عصر الذكاء الاصطناعي، تلعب نماذج الدردشة دوراً مهماً في كيفية تفاعل الأنظمة مع المستخدمين. وقد أظهرت الأبحاث الأخيرة التي قدمها فريق Arditi وزملاؤه (2024) أن آلية الرفض في هذه النماذج تعتمد على اتجاه خطي واحد في تيار التحويلات المتبقية. ولتحليل هذه الظاهرة، قام الباحثون بمقارنة أساليب مختلفة للتحكم في هذه الآلية، بدءاً من طريقة فرق المتوسطات (Difference-in-Means) وانتهاءً بنموذج الاستقراء الصفري (Iterative Nullspace Projection).
تتضمن المعالجات المستندة إلى الطريقة الأولى إضافة تنشيطات وتخفيض الاتجاه، بينما تأتي المعالجات المشتقة من الاستقراء الصفري على شكل إسقاط فارغ وتقليب مضاد للحقائق. أظهرت النتائج أن التقليب المضاد للحقائق من INLP ينافس الطريقة الأولى في كفاءة قمع الرفض، في حين كان إسقاط الفضاء الفارغ أقل فعالية.
ما هو مثير للاهتمام هو أنه عند تقييد INLP بالاتجاهات الرائدة من الفضاء المستخرج، يتم الحفاظ على معظم تأثير القمع مع تحقيق درجة من القابلية للتعديل. هندسياً، يستقر المعالجان من INLP في مناطق نوعية مختلفة من فضاء التنشيط. فإسقاط الفضاء الفارغ يقضي على التحولات بين العناقيد الضارة وغير الضارة، بينما يقلب التقليب المضاد للحقائق هذه التحولات نحو العناقيد المعاكسة. يشير ذلك إلى أن النموذج يقوم بتشفير غياب المفهوم بشكل مختلف عن عكسه، وهي تمييز مثير يحتاج لمزيد من البحث في الدراسات المستقبلية.
استكشاف حدود الرفض في نماذج الدردشة: مقارنة أولية مذهلة بين طرق Dif-in-Means وINLP
في دراسة جديدة، يتناول الباحثون كيفية تأثير الرفض في نماذج الدردشة المدربة على السلامة من خلال تقنيات حديثة. تطرح النتائج تساؤلات مثيرة حول فعالية طرق التحكم المختلفة في توجيه الرفض.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
