مع تزايد الاعتماد على نماذج اللغة (Language Models) كنظم استشارية في عمليات الصيانة، يصبح من الضروري تقييم كيف يمكن لهذه النماذج التعامل مع المدخلات غير المتوقعة. هذا ما تسعى إليه دراسة DiagFlowBench الجديدة، التي تستعرض مجموعة من 50 مخطط تدفق تشخيصي من شركة تصنيع مستهلكة، المحوّلة إلى 1,676 محادثة متعددة الأدوار تتعارض بين المدخلات المتوافقة وغير المتوافقة.

إن مشكلة "التخيل" (Hallucination) في نماذج اللغة تعتمد على مدى قدرتها على البقاء ضمن الخطوات المعتمدة من الوثائق الإجرائية. بينما تم تصميم العديد من النظم للالتزام بهذه الخطوات، فإن العوامل الواقعية غالباً ما تفقدهم التركيز بسبب استفسارات مشغليها والتي تخرج عن المسار المعتاد. فى هذه الدراسة، قمنا بتقييم أداء عشرة نماذج تجارية ومفتوحة الوزن وثقت أداء تلك النماذج في التعامل مع المدخلات الطارئة.

النتائج كانت لافتة، حيث أظهرت تبايناً كبيراً في معدلات الامتناع عن الرد. وجدت النماذج في كثير من الأحيان أنها تختار خطوات صحيحة ولكن غير مناسبة للسياق، بدلاً من اختلاق معلومات خاطئة. وهنا تظهر نقطة الضعف؛ النصائح المترجمة بالرغم من أنها صحيحة، تكون غير ملائمة في السياق، مما يطرح تساؤلات حول كيفية تحسين الأنظمة التسند إليها مثل هذه النماذج.

تعتبر DiagFlowBench خطوة هامة نحو تعزيز فعالية نماذج اللغة في التطبيقات العملية، ومهمة للبحث في كيفية تحسين قدرة هذه النماذج للتعامل مع التحديات الواقعية.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات!