في عالم الذكاء الاصطناعي، يعتمد التقييم المستمر لمنتجات نماذج اللغة الضخمة (LLMs) على وجود قاضي قوي يُعتبر بمثابة الحقيقة الثابتة. يُستخدم قاضي الذكاء الاصطناعي لمراقبة كل تفاعل وتسجيل أي انحراف في التقييم. ولكن هل تساءلت يومًا، من الذي انحرف: النظام أم القاضي نفسه؟
لقد أثبتت دراسة حديثة أن أي تحديث صامت في النظام أو تغيير في أسلوب تقييم القاضي يمكن أن يسبب لبسًا في معرفة المصدر الحقيقي لانحراف التقييم. إذن، كيف يمكن حل هذا اللغز؟
توصل الباحثون إلى حل مبتكر، حيث يتم استخدام مجموعة مرجعية مُعتمدة من البشر لإعادة تقييم أداء القاضي في فترات منتظمة، مما يوفر طريقة أكثر دقة لتمييز الانحرافات بين النظام والقاضي. وإذا كان هناك أي تغيير في تقييم القاضي، فيتم اعتباره انحرافًا من قِبل القاضي وليس النظام، وهذا ما يعكس مفهوم “صلاحية التقييم في أي وقت” (anytime-validity).
استخدمت التجارب التي أُجريت في هذه الدراسة تقنيات متقدمة والتي تمكنت من تحقيق نتائج مثيرة. فتمكين القاضي من تحديد ما إذا كان التغيير يعود إلى انحراف النظام أم إلى القاضي نفسه قد أصبح ممكنًا بفضل تحليل دقيق للإشارات. كما أن التجارب أثبتت فعالية النظام بعدد اختبارات يصل إلى 240/240، مشيرةً إلى دقة التقييم حتى في وجود انحرافات.
هذه الدراسة تفتح أبوابًا جديدة في كيفية تقييم نماذج اللغة الضخمة، وتوضح أنه بفضل التقنيات الحديثة يمكننا تحديد الانحرافات بدقة أعلى من أي وقت مضى.
ما رأيكم في هذه التطورات الحديثة في تقييم نماذج الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات.