في عالم استرجاع المعلومات (Information Retrieval)، كانت الأنظمة مصممة لتلبية احتياجات المستخدمين البشريين، والذين يمتلكون القدرة على تصفية المعلومات غير ذات الصلة. ولكن مع ظهور نماذج اللغات الضخمة (Large Language Models)، تغيرت هذه الديناميكية، حيث لم يعد بإمكان البشر القيام بدور الفلتر النهائي. لذا، ابتكرت دراسة حديثة مقياسا جديدا يسمى Bits-over-Random (BoR)، يهدف إلى قياس فعالية اختيار البيانات.

تكشف الدراسة أن النسب المرتفعة للنجاح، مثل تلك التي تتجاوز 99% التي أفاد بها نموذج BM25، قد لا تعكس الأداء الحقيقي. حيث أظهر المقياس الجديد أن هذه النسب قد تخفي فعلاً أداءً شبيهاً بالعشوائية.

على سبيل المثال، عند استخدام مجموعة بيانات Newsgroups، تم قياس نسبة النجاح بناءً على مقياس BoR، ليظهر أن الأداء كان قريبًا من العشوائية حتى مع توقع تغطية معينة. هذا يعني أن العديد من الأنظمة قد تبدو فعالة، لكن في الواقع، قلة من النتائج كانت تحمل قيمة حقيقية.

كما أن المقياس BoR يمكن أن يستخدم في تقييم استراتيجيات اختيار الأدوات من قبل وكلاء الذكاء الاصطناعي، حيث أظهرت النتائج أن حتى النماذج المثالية قد تفشل في تقديم اختيار فعّال عند وجود حجم كتالوج صغير. لذا، توصي الدراسة بضرورة تضمين BoR جنبًا إلى جنب مع المؤشرات التقليدية، وأهمية إعادة النظر في خيارات العمق لتحقيق الفعالية الأفضل دون زيادة تكاليف الحوسبة.

هل تعتقد أن هذا المقياس سيغير طريقة تقييم أنظمة الذكاء الاصطناعي؟ شاركنا آرائك في التعليقات!