في عالم الذكاء الاصطناعي، تُعتبر مقاييس استرجاع المعلومات أحد أدوات القياس الأساسية التي تُستخدم لتقييم فعالية نماذج اتخاذ القرار. ومع ذلك، هل يمكن أن تكون هذه المقاييس مضللة في بعض الأحيان؟
في دراسة حديثة، تم اختبار دقة استرجاع المعلومات باستخدام نموذج Qwen2.5-3B/7B في إطار tau-bench، وتحديداً في تصنيف السياسات قبل اتخاذ القرار. أظهرت النتائج أن استبدال العبارات المستخدمة في السياسات المعيارية بعبارات تم استرجاعها من السياق الفعلي كان له تأثير ملحوظ.
بعد ضبط النموذج، أدت تحسينات الحالة المضغوطة إلى زيادة في معدل F1 الإجمالي بمقدار 0.13-0.17 مقارنةً بالبيانات الأولية. لكن هنا تأتي القضية المثيرة: بالرغم من استرجاع العبارات الدقيقة فقط لـ 7% من الحالات الجوية، تمكن النموذج من تحقيق معدل F1 يصل إلى 0.58 مع العبارات المسترجعة، مقارنةً بـ 0.60 مع العبارات المعيارية.
زادت هذه النتائج من أهمية التقييم الدقيق للقيم المعيارية في سياقات القرار، وأكدت على ضرورة استخدام السياسات المسترجعة في حلقة التصنيف بدلاً من الاعتماد فقط على استرجاع المعلومات.
تعد هذه الدراسة بمثابة دعوة لمجتمع الذكاء الاصطناعي لإعادة النظر في كيفية قياس فائدة السياسات، ولتبني مقاييس جديدة تضمن تقديرًا أدق لكفاءة النماذج.
هل تقيس المقاييس الخاطئة فعلاً كفاءة سياسات الذكاء الاصطناعي؟ تحليل مثير!
تدرس هذه المقالة كيف يمكن أن تكون مقاييس استرجاع المعلومات أحيانًا مضللة، خصوصاً عند قياس فعالية سياسات الذكاء الاصطناعي. النتائج توضح أهمية تقييم السياسات المسترجعة في عملية التصنيف لتطبيقات الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
