في ظل التطور المتسارع لوكلاء نماذج اللغات الضخمة (LLM Agents)، تزداد أهمية العمل المعرفي الذي يتضمن مجالات متعددة كالبرمجة والبحث والرعاية الصحية. وعلى الرغم من ذلك، لا تزال أساليب تقييم الأداء الحالية تعتمد بشكل كبير على نماذج معالجة اللغة الطبيعية التقليدية، مما يجعل أداء المؤشرات المرتفعة لا يعكس دائمًا القدرة الحقيقية على تنفيذ الأعمال المعرفية في البيئات الواقعية.

يقدم هذا البحث نهجًا ثلاثي الخطوات لتعزيز تصميم مؤشرات القياس، يبدأ بتعريف نشاط العمل الذي يجري تقييمه، ثم يحدد السياق المختبر، وأخيرًا يركز على تقييم المنتج النهائي للعمل. وتستند هذه الخطوات إلى دراسات عمل تبين أن العمل المعرفي يُنظَّم من خلال الأدوار والمسؤوليات، والمواد والأدوات المحلية، والنتائج التي يجب أن تبقى قابلة للاستخدام في تدفقات العمل المستقبلية.

كما يُترجم هذا الاهتمام إلى إرشادات تصميم مؤشرات القياس، بحيث يتم ربط المهام بالنشاطات العملية بشكل واضح، مع وضع قيود ومعايير خاصة بالسياقات المختبرة. ولتمييز النشاطات المعمول بها عن المهام التقليدية، تم تحديد 18 نشاطًا عملياً من قاعدة بيانات مهام الوظائف O*NET.

قدّم البحث ثلاثة تحليلات حالة تقديرية: 1) GDPval، معيار تسليم غير برمجي، 2) OfficeQA Pro، معيار تحليل مستندات يعتمد على الإجابات النهائية، و3) APEX-SWE، معيار هندسة البرمجيات مع منتجات قابلة للتنفيذ. تُظهر هذه الحالات كيف تشكل خيارات تصميم المؤشرات أقوى الادعاءات المهنية التي يمكن أن يدعمها أي تقييم، كما تُبرز الفجوات التي قد تظهر بين المهمة المختبرة، والإعداد المختبر، والمنتج النهائي.