تعتبر أنظمة التوصية جزءًا متناميًا من عالم الذكاء الاصطناعي، حيث تسعى إلى تحسين تجربة المستخدمين من خلال اقتراحات ذكية وملائمة. لكن مع تطور هذه الأنظمة إلى واجهات حوارية متعددة الأدوار (multi-turn conversational interfaces)، يواجه تقييمها العديد من التحديات. فقد كانت المعايير الحالية تعتمد على تقييم نماذج اللغات الضخمة (Large Language Models) كحكم، مما يؤدي إلى وجود تدخلات ذات طابع شخصي، وتكاليف مرتفعة، وانعدام الاتساق.

مؤخرا، تم تقديم معيار $ au$-Rec - النقطة المحورية في تقييم أنظمة التوصية الذكية. يتميز هذا المعيار بأنه يستبدل التقييمات الذاتية بمكافآت قابلة للتحقق وآلية سحب مرئي (RTE) تتحكم في كيفية ظهور قيود المهام خلال الحوار. من خلال اختبار الوكلاء (agents) ضد عبارات كتالوج منظمة، واستخدام مقياس موثوقية pass^k، يوفر $ au$-Rec اختبارًا نظميًا للاستدلال المتسق.

تشير النتائج التي تم الحصول عليها من تسع تكوينات عبر خمس عائلات نموذجية - بما في ذلك GPT-5.4، Claude Sonnet 4.6، Gemini 2.5 Flash، DeepSeek V4 Flash، Qwen3-32B وGPT-5 mini - إلى وجود فجوة كبيرة في الموثوقية، حيث لا تصل أفضل النماذج إلى أكثر من ~57% في pass^1 و~38% في pass^4. هذا يشير إلى وجود نقص حاسم في تطبيق وكلاء المحادثة الحاليين.

لمن يرغب في معرفة المزيد، جميع الشيفرات والبيانات متاحة للجمهور عبر الرابط [الرابط المخصص].

ما رأيكم في أهمية هذا المعيار في تحسين دقة أنظمة التوصية؟ شاركونا أفكاركم في التعليقات!