في عالم الذكاء الاصطناعي، تُعتبر مقاييس استرجاع المعلومات أحد أدوات القياس الأساسية التي تُستخدم لتقييم فعالية نماذج اتخاذ القرار. ومع ذلك، هل يمكن أن تكون هذه المقاييس مضللة في بعض الأحيان؟

في دراسة حديثة، تم اختبار دقة استرجاع المعلومات باستخدام نموذج Qwen2.5-3B/7B في إطار tau-bench، وتحديداً في تصنيف السياسات قبل اتخاذ القرار. أظهرت النتائج أن استبدال العبارات المستخدمة في السياسات المعيارية بعبارات تم استرجاعها من السياق الفعلي كان له تأثير ملحوظ.

بعد ضبط النموذج، أدت تحسينات الحالة المضغوطة إلى زيادة في معدل F1 الإجمالي بمقدار 0.13-0.17 مقارنةً بالبيانات الأولية. لكن هنا تأتي القضية المثيرة: بالرغم من استرجاع العبارات الدقيقة فقط لـ 7% من الحالات الجوية، تمكن النموذج من تحقيق معدل F1 يصل إلى 0.58 مع العبارات المسترجعة، مقارنةً بـ 0.60 مع العبارات المعيارية.

زادت هذه النتائج من أهمية التقييم الدقيق للقيم المعيارية في سياقات القرار، وأكدت على ضرورة استخدام السياسات المسترجعة في حلقة التصنيف بدلاً من الاعتماد فقط على استرجاع المعلومات.

تعد هذه الدراسة بمثابة دعوة لمجتمع الذكاء الاصطناعي لإعادة النظر في كيفية قياس فائدة السياسات، ولتبني مقاييس جديدة تضمن تقديرًا أدق لكفاءة النماذج.