في عالم الذكاء الاصطناعي، يواجه تقييم الأنظمة الذكية في المهام الاحترافية المفتوحة تحديًا مزدوجًا بين الدقة والمرونة. بينما توفر المقاييس الثابتة (Static rubrics) معايير تقييم صارمة وسهلة التكرار، إلا أنها تقصر في استيعاب استراتيجيات الاستجابة المتنوعة والصحيحة. من ناحية أخرى، تمتاز أساليب نماذج اللغات الكبيرة (LLMs) كمقييمين بالقدرة على التكيف مع ردود الأفعال الفردية، لكنها قد تعاني من عدم الاستقرار والانحياز.

لمعالجة هذه الإشكالية، قام فريق من الباحثين بتطوير نظام جديد أطلقوا عليه اسم JADE. يستند هذا النظام إلى نموذج تقييم ذي طبقتين. الطبقة الأولى تقوم بتشفير المعرفة الخبيرة على شكل مجموعة محددة مسبقاً من مهارات التقييم، مما يوفر معايير تقييم مستقرة. بينما الطبقة الثانية تؤدي تقييمًا مخصصًا يتمحور حول كل تقرير، مما يمنح المرونة في قياس استراتيجيات التفكير المتنوعة.

من خلال إجراء تجارب على BizBench، أظهر JADE تحسينًا ملحوظًا في استقرار التقييم وكشف عن نقاط فشل حاسمة كانت تُفوت في التقييمات الشاملة المعتمدة على LLMs. بالإضافة إلى ذلك، أثبت النظام توافقًا قويًا مع المعايير التي أعدها خبراء وأظهر فعالية عند نقله إلى منصات أخرى مثل HealthBench وDR.BENCH، والتي تغطي مجالات طبية واحترافية متعددة.

يتوفر الكود وبيانات البحث على موقع GitHub ليكون مرجعاً مفتوحاً للباحثين والمطورين.

هل تتوقع أن تُحدث JADE تغييرات في طريقة تقييم الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!