في دراسة حديثة نشرت على منصة arXiv، تم التركيز على الأدوات الذكية التي تحرك نماذج اللغة الكبيرة (LLMs) وتحدياتها خلال المحادثات المتعددة. بينما excel هذه النماذج في أداء المهام الساكنة، إلا أن أدائها في سيناريوهات الحوار المتعدد لا يزال بحاجة إلى بحث عميق.

تكمن الأهمية في هذا البحث في تطبيقات مثل الرعاية الصحية، حيث يعتمد المرضى والأطباء على روبوتات الدردشة المبنية على الذكاء الاصطناعي للإجابة عن استفساراتهم الطبية. وقد تم إدخال إطار عمل جديد يسمى "stick-or-switch" (SoS)، والذي يقسم مساحة الأسئلة والأجوبة إلى عروض متسلسلة. يهدف هذا الإطار إلى نمذجة سلوكين أساسيين يتعلقان بالأمان: الأول هو "التمسك" بالإجابة الصحيحة، والثاني هو "المرونة" في الانتقال إلى اقتراح صحيح عند تقديمه.

الأكثر إثارة هو أن البحث قد قام بتقييم 17 نموذجاً من LLMs عبر ثلاث معايير طبية، ليظهر أن تقسيم مساحة الإجابات إلى عروض متسلسلة يتسبب في انخفاض الدقة بنسبة تصل إلى 30% عند التفاعل، حتى أن النموذج الأكثر تأثراً وصلت فيه النسبة إلى 65%! كما أظهرت الدراسة ما يسمى "التحويل الأعمى"، حيث تقوم النماذج بتحويل عدم الاختيار إلى اقتراحات خاطئة وصحيحة بنفس المعدل تقريباً، مما يتجاوز 50%.

ومع تزايد حجم النموذج، تم ملاحظة انخفاض بعض تلك السلبية في محادثات متعددة، بينما ظهرت مشكلات جديدة، مثل ارتفاع احتمال الاعتماد على اقتراح خاطئ بعد عدم الاختيار.

تظهر نتائج هذه الدراسة بوضوح أن الأداء الجيد الذي يتم قياسه في الاختبارات الساكنة لا ينقل بصورة مباشرة إلى المحادثات المتعددة، مما يبرز الحاجة لفهم أعمق لتفاصيل التفاعل الفعلي بين البشرية والذكاء الاصطناعي. ما رأيكم في هذه النتائج المثيرة؟ شاركونا في التعليقات.