في عصر الذكاء الاصطناعي، أصبحت نماذج اللغة الكبيرة (LLMs) تشغل دورًا محوريًا في تطبيقات متعددة، حيث يُعتمَد عليها في إجراء حوارات تفاعلية وعبر خطوات متسلسلة لاستدعاء الأدوات. لكن كيف يمكننا قياس أدائها بفاعلية؟ هنا تأتي أهمية تقنية تقييم الحالة الوكيلة (Proxy State-Based Evaluation). تعتمد تقنيات التقييم التقليدية، مثل tau-bench وtau^2-bench، على بنى تحتية حاسوبية محددة التكلفة، مما يجعل من الصعب تحسينها أو تكرارها. أما تفكيرنا الجديد فيتخطى تلك القيود! نقدم إطار عمل جديدًا يعتمد على نماذج اللغة الكبيرة، يضمن تقييمًا قائمًا على الحالة النهائية من دون الحاجة إلى قاعدة بيانات حاسوبية صارمة. ويعمل الإطار عن طريق تحديد سيناريوهات محددة، تتضمن أهداف المستخدم وحقائق النظام والأسلوب المتوقع لتصرف الوكيل. يتم تتبع الحالة باستخدام نموذج لغة، الذي يستنتج حالة وكيلة منظمة من خلال سلسلة التفاعل الكاملة. كما يقوم الحكام من نماذج اللغة بالتحقق من تحقيق الأهداف واكتشاف أي تناقضات في السياق. أظهرت التجارب أن نظام التقييم الجديد يمكنه تقديم تصنيفات مستقرة تميز بين النماذج المختلفة بشكل دقيق. وبفضل ذلك، وبتزايد التحليلات الحسية عن شخصيات المستخدمين، يحقق الإطار اتفاقية تتجاوز 90% بين الأحكام البشرية وأحكام نماذج اللغة، مما يبرز فعاليته كمقياس موثوق لتقييم الأداء. إذن، ماذا يعني هذا بالنسبة لمستقبل الذكاء الاصطناعي؟ هل سنشهد تحولًا كبيرًا في كيفية قياس أداء نماذج اللغة وتطويرها؟ تعالوا نتبادل الآراء!