تزايد استخدام نماذج اللغات الضخمة (Large Language Models) كعملاء واجهتهم بشكل مباشر مع المستخدمين، لكن تظل التحديات قائمة في تقييم موثوقيتها بسبب التفاعلات المتعددة غير الخطية. تعتمد البروتوكولات الحالية على تخمينات خطية باستخدام طريقة مونت كارلو (Monte Carlo) لتقييم نجاح المحادثات بين العميل والمستخدم. غير أن هذه الطريقة تعاني من نقص في الكفاءة، حيث تتكرر فيها الأجزاء الأولى من الحوار بشكل غير مجدي، وغالبًا ما تفشل في الكشف عن أعطال عميقة ناتجة عن سلوكيات نادرة للمستخدمين.

في هذا السياق، نقدم لكم استراتيجية جديدة تسمى DIVERT (التقييم المعتمد على التنوع عبر تفرعات المسارات)، وهي إطار عمل فعال يعتمد على المحاكاة المبنية على اللقطات لتمكين الاستكشاف المنظم لتفاعلات العميل مع المستخدم. تعمل DIVERT على التقاط الحالة الكاملة للعميل والبيئة عند نقاط القرار الحرجة، مما يسمح باستئناف التنفيذ من هذه اللقطات وتقليل الحسابات المتكررة.

من كل نقطة تفرع، يقوم إطار العمل باستخدام استجابات مستخدمين مستهدفة ومحفزة للتنوع، مما يتيح استكشاف المسارات البديلة بشكل موجه. من خلال التركيز على تقييم المسارات الدلالية المتنوعة والتي لم تُستكشف جيدًا، نجحت DIVERT في تحقيق تحسينات ملحوظة في الكفاءة والتغطية. أظهرت النتائج التجريبية أنها تكشف عن المزيد من الأعطال لكل توكن مقارنة بالبروتوكولات الخطية التقليدية، بينما توسع مجموعة المهام التي يتم التعرف فيها على الأعطال.

تفتح هذه الاستراتيجية آفاقاً جديدة في تقييم نماذج الذكاء الاصطناعي، مما يدفعنا للتفكير في كيفية تحسين التفاعل بين العملاء والمستخدمين في المستقبل. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.