في عالم الذكاء الاصطناعي، يُعتبر تقييم الأداء واحداً من أهم الخطوات لضمان فعالية الأنظمة المستخدمة. ومع ذلك، تسلط الأبحاث الحديثة الضوء على عدم قدرة معظم ممارسات التقييم الحالية على عكس الأداء الفعلي للأنظمة في البيئات ذات الموارد المحدودة. فهذه البيئات تتطلب فهمًا عميقًا للقيود التشغيلية التي تُشكل usability إلى جانب جودة النموذج.

من خلال تحليل منهجي لمجموعات المعايير الحالية عبر أنظمة الكلام، المحادثة/استرجاع المعلومات، والرؤية، تحدد الأبحاث ثغرات حرجة بين تقييمات المختبر والشروط الفعلية في العالم الحقيقي. تشير الدراسات إلى أن الوحدة الأساسية للتقييم يجب أن تكون النظام المعتمد وليس النموذج المعزول، مما يتطلب أطر تقييم فعالة تدمج بين أداء المهام والظروف التشغيلية مثل المدخلات المشوشة، التبديل بين اللغات، الاتصال المتقطع، الأجهزة ذات الأداء المنخفض، وتحويل المجال.

علاوة على ذلك، يجب أن تعترف المعايير بأن الفئات المختلفة من التطبيقات تتطلب ملفات تقييم متمايزة، بدلاً من اعتماد درجة واحدة عامة تخفي اختلافات التشغيل. لهذا الغرض، تقترح الدراسات إطارًا لتقارير مشتركة يحتفظ بالقدرة على المقارنة بين الأنظمة وأنواع التطبيقات مع البقاء حساسًا لسياق التطبيق.

وأخيرًا، تؤكد الأبحاث على الحاجة لوجود تقارير واضحة وقابلة للتنفيذ لصناع السياسات، المموِّلين، والمطبقين، تشمل بطاقات معايير موحدة من صفحة واحدة، ملفات تعريف النشر، وتوثيقًا مباشرًا لإجراءات التعامل مع الفشل وآليات الإشراف البشري. إن هذه الخطوات تمثل أداة هامة تدعم اتخاذ قرارات عملية تدفع الابتكار وتحسن الأداء في البيئات التي تعاني من نقص الموارد.