في عالم استرجاع [المعلومات](/tag/المعلومات) (Information Retrieval)، كانت الأنظمة مصممة لتلبية احتياجات المستخدمين البشريين، والذين يمتلكون القدرة على [تصفية](/tag/تصفية) [المعلومات](/tag/المعلومات) غير ذات الصلة. ولكن مع ظهور [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models))، تغيرت هذه الديناميكية، حيث لم يعد بإمكان البشر القيام بدور الفلتر النهائي. لذا، ابتكرت [دراسة](/tag/دراسة) حديثة مقياسا جديدا يسمى Bits-over-Random ([BoR](/tag/bor))، يهدف إلى [قياس](/tag/قياس) فعالية اختيار [البيانات](/tag/البيانات).

تكشف [الدراسة](/tag/الدراسة) أن النسب المرتفعة للنجاح، مثل تلك التي تتجاوز 99% التي أفاد بها [نموذج](/tag/نموذج) BM25، قد لا تعكس [الأداء](/tag/الأداء) الحقيقي. حيث أظهر المقياس الجديد أن هذه النسب قد تخفي فعلاً أداءً شبيهاً بالعشوائية.

على سبيل المثال، عند استخدام [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) Newsgroups، تم [قياس](/tag/قياس) نسبة النجاح بناءً على مقياس BoR، ليظهر أن [الأداء](/tag/الأداء) كان قريبًا من العشوائية حتى مع توقع تغطية معينة. هذا يعني أن العديد من الأنظمة قد تبدو فعالة، لكن في الواقع، قلة من النتائج كانت تحمل [قيمة](/tag/قيمة) حقيقية.

كما أن المقياس [BoR](/tag/bor) يمكن أن يستخدم في [تقييم](/tag/تقييم) [استراتيجيات](/tag/استراتيجيات) اختيار [الأدوات](/tag/الأدوات) من قبل [وكلاء](/tag/وكلاء) الذكاء الاصطناعي، حيث أظهرت النتائج أن حتى [النماذج](/tag/النماذج) المثالية قد تفشل في تقديم اختيار فعّال عند وجود حجم كتالوج صغير. لذا، توصي [الدراسة](/tag/الدراسة) بضرورة تضمين [BoR](/tag/bor) جنبًا إلى جنب مع [المؤشرات](/tag/المؤشرات) التقليدية، وأهمية إعادة النظر في خيارات [العمق](/tag/العمق) لتحقيق الفعالية الأفضل دون زيادة [تكاليف](/tag/تكاليف) [الحوسبة](/tag/الحوسبة).

هل تعتقد أن هذا المقياس سيغير طريقة [تقييم](/tag/تقييم) [أنظمة](/tag/أنظمة) [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي)؟ شاركنا آرائك في [التعليقات](/tag/التعليقات)!