🔬 أبحاث2 دقائق للقراءة👁 0 مشاهدة

KWBench: معيار جديد لتقييم قدرة التعرف على المشكلات في نماذج اللغة الضخمة

تم إطلاق KWBench، وهو معيار ثوري يقيس قدرة نماذج اللغة الضخمة (LLMs) على التعرف على المشكلات المهنية دون الحاجة إلى تحفيز. يتضمن المعيار 223 مهمة مستمدة من مجالات متعددة، مما يعكس تحديات حقيقية في عالم المعرفة.

أطلق فريق من الباحثين مؤخرًا نموذجًا جديدًا يُعرف باسم KWBench أو "مقياس العمل المعرفي"، وهو معيار مبتكر يهدف إلى قياس قدرة نماذج اللغة الضخمة (LLMs) على التعرف على المشكلات المهنية دون أي تحفيز مسبق. يهدف هذا المعيار إلى تجاوز القياسات التقليدية التي تركز عادةً على استخراج المعلومات أو إتمام المهام وفقًا لمواصفات محددة، إلى مرحلة سابقة هي التعرف على الهيكل الأساسي للموقف بناءً على المدخلات الخام فقط.

يحتوي KWBench على 223 مهمة تم تجميعها من ممارسين في مجالات متنوعة مثل عمليات الاستحواذ، وتفاوض العقود، والصيدلة السريرية، والسياسة التنظيمية، وتحليل الاحتيال، وتصميم الحوافز. كل مهمة تتضمن نمطًا رسميًا من نظرية الألعاب (Game Theory)، بما في ذلك صراع الوكيل والرئيس، ووضع الإشارات، وفشل تصميم الآليات، وغيرها.

تلك المهام لا تقدم فقط تحديات ذهنية، بل تتطلب من النماذج تقديم قراءة فنية للموقف وتوقع طرق الفشل المحتملة دون أي مؤشرات على نوع المشكلة. وقد أُقيم اختبار على 16 نموذجًا مختلفًا، حيث حقق أفضل نموذج نجاحًا في 27.9% من المهام. والأكثر إثارة، أن أفضل نموذجين لم يتفقا إلا على 31.7% من النجاحات.

تشير النتائج إلى أن 44 مهمة تم حلها من قبل نموذج واحد فقط من بين أفضل 8 نماذج، مما يبرز الفروقات الكبيرة في القدرات بين النماذج. على الرغم من أن النماذج تتمكن في معظم الأحيان من تحديد المفاهيم المتعلقة بنظرية الألعاب عندما تُطرح عليها، إلا أنها تخفق في تطبيق هذه المفاهيم بشكل تلقائي.

تسعى KWBench إلى تغيير طريقة تقييم النماذج المتقدمة في مجال العمل المعرفي، من خلال قياس قدرتها على التعرف على المشكلة المناسبة من الوضع القائم، وليس فقط على كيفية أدائها بعد تحديد المشكلة لها.
المصدر:أركايف للذكاءاقرأ المصدر الأصلي ←
مشاركة:𝕏واتسابتيليجراملينكدإن

📰 أخبار ذات صلة