تتجه [صناعة الذكاء الاصطناعي](/tag/[صناعة](/tag/صناعة)-الذكاء-الاصطناعي) [نحو](/tag/نحو) [تغييرات](/tag/تغييرات) هيكلية جديدة في [تقييم](/tag/تقييم) الأداء، حيث أصبحت [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) تُستخدم كأنظمة تعمل في أوقات معينة من خلال [أدوات](/tag/أدوات) وبيئات، مما يُضفي طابعًا تفاعليًا على تجربة الاستخدام. ورغم تقدم التقنيات، لا تزال العديد من [أساليب](/tag/أساليب) [التقييم](/tag/التقييم) تعتمد على افتراضات قديمة تتعلق بمعايير [الأداء](/tag/الأداء) التقليدية، مثل المدخلات الثابتة والمخرجات المعزولة.

في ظل هذا الإطار، بدأ الباحثون في [تطوير](/tag/تطوير) [معايير](/tag/معايير) تفاعلية، لكن المشهد لا يزال مجزأً، إذ أن [المعايير](/tag/المعايير) تختلف في نوعية العناصر التفاعلية التي تتضمنها وكيفية [تقييم](/tag/تقييم) المسارات التي تتخذها. يعتبر هذا المقال بمثابة دعوة للنظر إلى [التقييم](/tag/التقييم) التفاعلي كمنهجية [تقييم](/tag/تقييم) منضبطة، وليس مجرد مجموعة جديدة من [معايير الأداء](/tag/[معايير](/tag/معايير)-[الأداء](/tag/الأداء)).

تتجاوز هذه المنهجية مجرد اعتماد طرق [التقييم](/tag/التقييم) السابقة، بل تعتمد تعريفًا للتقييم يُعتبر خريطة سطحية تفصل بين [الأدلة](/tag/الأدلة) والأحكام. يُظهر [التقييم](/tag/التقييم) التفاعلي كيف يمكن أن تتغير كل من أدلة [التقييم](/tag/التقييم) والإجراءات المستخدمة للتقييم، حيث تصبح [الأدلة](/tag/الأدلة) عبارة عن مسارات [تفاعلية](/tag/تفاعلية). وبالتالي، يتعين علينا [تقييم](/tag/تقييم) العمليات والتنسيق والمتانة والأداء على مستوى النظام.

استنادًا إلى هذا التعريف، نقترح تصنيفًا ثنائي المحاور يستند إلى مبادئ [تصميم](/tag/تصميم) ومعايير التقرير، مع [تحليل](/tag/تحليل) سيناريوهات ممثلة ورصد كيفية ظهور التحديات التقليدية عند مستوى المسار. هذه [الرؤية](/tag/الرؤية) الجديدة تعد بتقديم [حلول مبتكرة](/tag/[حلول](/tag/حلول)-مبتكرة) في مجال [تقييم الذكاء](/tag/[تقييم](/tag/تقييم)-الذكاء) الاصطناعي، بما يتناسب مع احتياجات الزمن الراهن.