تتطور مجالات الذكاء الاصطناعي (AI) بشكل لافت، ويبرز من بين تلك التطورات النظام الجديد LH-Bench، الذي يقدم تصوراً مبتكراً لتقييم أداء نماذج اللغة الكبيرة (Large Language Models) في تنفيذ مهام الأعمال المعقدة. في الوقت الذي تظهر فيه هذه النماذج أداءً ممتازاً في المهام القابلة للتحقق الموضوعي، مثل الرياضيات والبرمجة، إلا أن العمل في بيئات الأعمال الحقيقية غالباً ما يكون سياقياً وذو طبيعة ذاتية. إذ يتوقف النجاح على مجموعة من الأهداف التنظيمية ونوايا المستخدمين وجودة المخرجات المنتجة عبر عمليات متكاملة طويلة الأمد.

تقوم LH-Bench على ثلاثة أعمدة رئيسية:
1. **معايير تقييم معتمدة على خبراء**: تساعد في توفير سياق المجال الضروري لتقييم الآداء الذاتي في الأعمال ذات الطابع الذاتي.
2. **مخرجات موثوقة مُنسقة**: تمكّن نماذج اللغة الكبيرة من تلقي إشارات مكافأة خطوة بخطوة، مما يُعزز من عملية التقييم.
3. **تقييم تفضيلات بشرية**: يُعتبر دليلاً متقارباً لتأكيد صحة النتائج.

وفقاً للدراسات، تبين أن المعيار القائم على الخبراء يوفر إشارات تقييم أكثر موثوقية مقارنةً بالمعايير التي تنشئها النماذج (kappa = 0.60 vs. 0.46). كما تؤكد الأحكام التي تستند إلى التفضيلات البشرية تلك النتائج بدون فقدان الموثوقية. يتضمن البحث بيانات عامة ويقدم نتائج على بيئتين: من Figma إلى كود، ومواد محتوى برمجي.

في عالم يتزايد فيه الاعتماد على التكنولوجيا، يقدم LH-Bench تحولاً نوعياً في كيفية تقييمنا للأداء الذكي في بيئات العمل. كيف ترى تأثير هذا النظام على مستقبل الأعمال؟ شاركونا آرائكم في التعليقات!