في عالم الذكاء الاصطناعي، يواجه تقييم الأنظمة الذكية في المهام الاحترافية المفتوحة تحديًا مزدوجًا بين الدقة والمرونة. بينما توفر المقاييس الثابتة (Static rubrics) معايير تقييم صارمة وسهلة التكرار، إلا أنها تقصر في استيعاب استراتيجيات الاستجابة المتنوعة والصحيحة. من ناحية أخرى، تمتاز أساليب نماذج اللغات الكبيرة (LLMs) كمقييمين بالقدرة على التكيف مع ردود الأفعال الفردية، لكنها قد تعاني من عدم الاستقرار والانحياز.
لمعالجة هذه الإشكالية، قام فريق من الباحثين بتطوير نظام جديد أطلقوا عليه اسم JADE. يستند هذا النظام إلى نموذج تقييم ذي طبقتين. الطبقة الأولى تقوم بتشفير المعرفة الخبيرة على شكل مجموعة محددة مسبقاً من مهارات التقييم، مما يوفر معايير تقييم مستقرة. بينما الطبقة الثانية تؤدي تقييمًا مخصصًا يتمحور حول كل تقرير، مما يمنح المرونة في قياس استراتيجيات التفكير المتنوعة.
من خلال إجراء تجارب على BizBench، أظهر JADE تحسينًا ملحوظًا في استقرار التقييم وكشف عن نقاط فشل حاسمة كانت تُفوت في التقييمات الشاملة المعتمدة على LLMs. بالإضافة إلى ذلك، أثبت النظام توافقًا قويًا مع المعايير التي أعدها خبراء وأظهر فعالية عند نقله إلى منصات أخرى مثل HealthBench وDR.BENCH، والتي تغطي مجالات طبية واحترافية متعددة.
يتوفر الكود وبيانات البحث على موقع GitHub ليكون مرجعاً مفتوحاً للباحثين والمطورين.
هل تتوقع أن تُحدث JADE تغييرات في طريقة تقييم الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!
JADE: إطار تقييم ديناميكي مبتكر لقياس الأداء الاحترافي في مهام الذكاء الاصطناعي
تقدم JADE إطارًا متقدمًا لتقييم الذكاء الاصطناعي القائم على الخبرة، مما يحل التحدي بين الدقة والمرونة في تقييم المهام الاحترافية المفتوحة. هذا النظام الجديد يعد ثورة في طريقة تقييم استراتيجيات التفكير المتنوعة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
