تتجه صناعة الذكاء الاصطناعي نحو تغييرات هيكلية جديدة في تقييم الأداء، حيث أصبحت نماذج اللغات الضخمة (Large Language Models) تُستخدم كأنظمة تعمل في أوقات معينة من خلال أدوات وبيئات، مما يُضفي طابعًا تفاعليًا على تجربة الاستخدام. ورغم تقدم التقنيات، لا تزال العديد من أساليب التقييم تعتمد على افتراضات قديمة تتعلق بمعايير الأداء التقليدية، مثل المدخلات الثابتة والمخرجات المعزولة.

في ظل هذا الإطار، بدأ الباحثون في تطوير معايير تفاعلية، لكن المشهد لا يزال مجزأً، إذ أن المعايير تختلف في نوعية العناصر التفاعلية التي تتضمنها وكيفية تقييم المسارات التي تتخذها. يعتبر هذا المقال بمثابة دعوة للنظر إلى التقييم التفاعلي كمنهجية تقييم منضبطة، وليس مجرد مجموعة جديدة من معايير الأداء.

تتجاوز هذه المنهجية مجرد اعتماد طرق التقييم السابقة، بل تعتمد تعريفًا للتقييم يُعتبر خريطة سطحية تفصل بين الأدلة والأحكام. يُظهر التقييم التفاعلي كيف يمكن أن تتغير كل من أدلة التقييم والإجراءات المستخدمة للتقييم، حيث تصبح الأدلة عبارة عن مسارات تفاعلية. وبالتالي، يتعين علينا تقييم العمليات والتنسيق والمتانة والأداء على مستوى النظام.

استنادًا إلى هذا التعريف، نقترح تصنيفًا ثنائي المحاور يستند إلى مبادئ تصميم ومعايير التقرير، مع تحليل سيناريوهات ممثلة ورصد كيفية ظهور التحديات التقليدية عند مستوى المسار. هذه الرؤية الجديدة تعد بتقديم حلول مبتكرة في مجال تقييم الذكاء الاصطناعي، بما يتناسب مع احتياجات الزمن الراهن.