في عالم استرجاع [المعلومات](/tag/المعلومات) (Information Retrieval)، كانت الأنظمة مصممة لتلبية احتياجات المستخدمين البشريين، والذين يمتلكون القدرة على [تصفية](/tag/تصفية) [المعلومات](/tag/المعلومات) غير ذات الصلة. ولكن مع ظهور [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models))، تغيرت هذه الديناميكية، حيث لم يعد بإمكان البشر القيام بدور الفلتر النهائي. لذا، ابتكرت [دراسة](/tag/دراسة) حديثة مقياسا جديدا يسمى Bits-over-Random ([BoR](/tag/bor))، يهدف إلى [قياس](/tag/قياس) فعالية اختيار [البيانات](/tag/البيانات).
تكشف [الدراسة](/tag/الدراسة) أن النسب المرتفعة للنجاح، مثل تلك التي تتجاوز 99% التي أفاد بها [نموذج](/tag/نموذج) BM25، قد لا تعكس [الأداء](/tag/الأداء) الحقيقي. حيث أظهر المقياس الجديد أن هذه النسب قد تخفي فعلاً أداءً شبيهاً بالعشوائية.
على سبيل المثال، عند استخدام [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) Newsgroups، تم [قياس](/tag/قياس) نسبة النجاح بناءً على مقياس BoR، ليظهر أن [الأداء](/tag/الأداء) كان قريبًا من العشوائية حتى مع توقع تغطية معينة. هذا يعني أن العديد من الأنظمة قد تبدو فعالة، لكن في الواقع، قلة من النتائج كانت تحمل [قيمة](/tag/قيمة) حقيقية.
كما أن المقياس [BoR](/tag/bor) يمكن أن يستخدم في [تقييم](/tag/تقييم) [استراتيجيات](/tag/استراتيجيات) اختيار [الأدوات](/tag/الأدوات) من قبل [وكلاء](/tag/وكلاء) الذكاء الاصطناعي، حيث أظهرت النتائج أن حتى [النماذج](/tag/النماذج) المثالية قد تفشل في تقديم اختيار فعّال عند وجود حجم كتالوج صغير. لذا، توصي [الدراسة](/tag/الدراسة) بضرورة تضمين [BoR](/tag/bor) جنبًا إلى جنب مع [المؤشرات](/tag/المؤشرات) التقليدية، وأهمية إعادة النظر في خيارات [العمق](/tag/العمق) لتحقيق الفعالية الأفضل دون زيادة [تكاليف](/tag/تكاليف) [الحوسبة](/tag/الحوسبة).
هل تعتقد أن هذا المقياس سيغير طريقة [تقييم](/tag/تقييم) [أنظمة](/tag/أنظمة) [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي)؟ شاركنا آرائك في [التعليقات](/tag/التعليقات)!
معضلة النجاح بنسبة 99%: حينما تعني النتائج القريبة من الكمال الاختيار العشوائي!
تظهر دراسة جديدة أن النجاح المرتفع في استرجاع المعلومات يمكن أن يتخفى وراء أداء عشوائي، مما يثير تساؤلات جديدة حول طُرق القياس. تقدم الدراسة مقياساً جديداً، وهو Bits-over-Random (BoR)، لتقييم فعالية أدوات الاسترجاع.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
