في عصر الذكاء الاصطناعي، يعد فهم نوايا المستخدم أحد أبرز التحديات التي تواجه نماذج اللغات الضخمة (LLMs). قد نجحت تقنيات معالجة أمان هذه النماذج في تعزيز قدرتها على مقاومة الهجمات العدائية، لكنها غالبًا ما تغفل عن كيفية استجابتها عندما يسعى المستخدمون لتوضيح نواياهم.

أعلنت دراسة جديدة تسمى CarryOnBench عن تطوير أول معيار تفاعلي يقيس قدرة نماذج الذكاء الاصطناعي على تعديل تفسيراتها لنوايا المستخدمين وتحقيق الفائدة أثناء المحادثات متعددة الأدوار. تم البدء من 398 استفسار يبدو أنها ضارة لكن نواياها في الواقع مفيدة، حيث تم محاكاة 5,970 محادثة عن طريق تغيير تسلسل المتابعات من المستخدمين، وتم تقييم 14 نموذجًا بناءً على فائدتها مقارنة بنوايا المستخدمين وسلامتها.

نتائج CarryOnBench قادت إلى ظهور 1,866 تدفقًا محادثيًا مختلفا يتضمن من 4 إلى 12 دورًا، ما يعني 23,880 استجابة من النماذج المدروسة. استخدم الباحثون مقياس Ben-Util، وهو مقياس يعتمد على قوائم فحص لتقييم كيفية تلبية استجابة كل نموذج لاحتياجات المعلومات التي تؤكد نوايا المستخدم.

في الجولة الأولى، حققت النماذج معدل تلبية يتراوح بين 10.5% و37.6% من احتياجات المعلومات المفيدة للمستخدمين. وعندما تم توضيح النية الإيجابية في بداية الاستفسار، ارتفع معدل التلبية إلى 25.1% - 72.1%، مما يشير إلى أن النماذج غالبًا ما تحجم عن تقديم المعلومات بسبب سوء تفسير النية، وليس بسبب نقص المعرفة.

عند تقديم توضيحات إيجابية عبر المحادثات متعددة الأدوار، اقترب 13 من أصل 14 نموذجًا أو تجاوزت هذا المعايير، ومع ذلك، اختلفت تكلفة الاستعادة عبر النماذج. حددت الدراسة ثلاث حالات فشل لا تظهر في التقييمات ذات الدور الواحد: الإغلاق المنفعي، حيث نادراً ما يقوم النموذج بتحديث نفسه على الرغم من التوضيح؛ الاستعادة غير الآمنة؛ والاستعادة المتكررة، حيث يعيد النموذج استخدام الردود السابقة بدلاً من تقديم معلومات جديدة. كما تشير النتائج إلى أن المحادثات تتقارب إلى مستويات مماثلة من الضرر بغض النظر عن مدى تحفظ النموذج بشكل ابتدائي.

تُظهر هذه النتائج وجود فجوة لم يتم سدها بواسطة التقييمات ذات الدور الواحد - هل النموذج حذر بشكل مناسب أم هو مجرد غير مستجيب لتوضيحات نوايا المستخدم؟

في خضم هذه الاكتشافات المثيرة، ما رأيكم في قدرة نماذج الذكاء الاصطناعي على فهم النوايا المعقدة؟ شاركونا في التعليقات.