في عالم الذكاء الاصطناعي، تعتبر نماذج اللغات الضخمة (Large Language Models) من أهم الابتكارات التي غيرت طريقة تفاعلنا مع المعلومات. ومع ذلك، فإن مدى معرفتها ما زال غامضًا للكثيرين. حتى الآن، كانت المعايير المستخدمة لتقييم المعرفة غالبًا ما تعتمد على أسئلة محددة مسبقًا. على سبيل المثال، قد يسأل شخص ما، "متى وُلِد مارتن لوثر كينغ؟"، مما يُظهر تَحيزًا في اختيار الأسئلة، حيث يُقيّم فقط المعرفة التي يختارها المصممون.
لكن، ماذا لو تمكنا من تقييم المعرفة بشكل أكثر شمولية؟ هنا تأتي فكرة "تقييم المعرفة المفتوحة"، وهو مفهوم جديد يتم تقديمه في دراسة حديثة. بدلاً من الاعتماد على أسئلة ضيقة، يتم تقييم النماذج بناءً على ما تختاره من معلومات لتقديمها استجابةً لاستفسارات مفتوحة. على سبيل المثال، يمكن أن يُطلب من النموذج "أخبرني بكل ما تعرفه عن مارتن لوثر كينغ".
تم تطبيق هذا المفهوم الجديد من خلال معيار "BeQu" (ما وراء الأسئلة)، والذي يضم 10,000 كيان مرتبط بمجموعات مرجعية للتحقق من المعلومات. من خلال استخدام BeQu، تم تقييم مجموعة واسعة من نماذج اللغات وتحليل تأثيرات مجهود التفكير، وحجم النموذج، وصيغة الطلب، ونطاق المعرفة.
تقدم هذه الطريقة الجديدة فرصة لتوسيع فهمنا لما تعرفه هذه النماذج حقًا، وقد تُحدث ثورة في كيفية تقييم الأنظمة الذكية. كما أن البيانات وقائمة المتصدرين متاحة على مستودع GitHub الخاص بالبحث وموقع benchmark.
ما رأيكم في هذا التطور المثير في تقييم الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!
ثورة في تقييم المعرفة: كيف تقيم نماذج اللغات الضخمة ما تعرفه حقًا؟
يمكن أن يكون فهم المعرفة الموجودة في نماذج اللغات الضخمة (LLMs) معقدًا، حيث يعرض بحث جديد فكرة جديدة لتقييم المعرفة. يعتمد هذا التقييم على أسئلة مفتوحة لتحديد مدى معرفة النموذج بشكل متنوع ودقيق.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
