تشهد الآونة الأخيرة زيادة ملحوظة في استخدام [تقييمات](/tag/تقييمات) [النماذج التوليدية](/tag/[النماذج](/tag/النماذج)-التوليدية) (Generative [Models](/tag/models)) للذكاء الاصطناعي، والتي تلعب دوراً محورياً في تشكيل [توقعات](/tag/توقعات) المجتمع العلمي والجمهور حول قدرات هذه [التكنولوجيا](/tag/التكنولوجيا) المتطورة. لكن، مع تزايد هذه التقييمات، تنمو في الوقت ذاته مشاعر الشك حول موثوقيتها.

السؤال المطروح هنا: كيف يمكننا التأكد من أن [الدقة](/tag/الدقة) التي يتم الإبلاغ عنها تعكس فعلاً [الأداء](/tag/الأداء) الأساسي للنموذج؟

عادةً ما تُقدَّم نتائج الاختبارات كقياسات مباشرة للقدرات، لكن في الحقيقة، تعتبر نتائج هذه الاختبارات استنتاجات، إذ أن اعتبار النتيجة كدليل على القدرة يتطلب مسبقاً وجود [نظرية](/tag/نظرية) واضحة حول معنى القدرة في مهمة معينة.

في هذا السياق، يطرح الباحثون فكرة أن [تقييمات الذكاء الاصطناعي](/tag/[تقييمات](/tag/تقييمات)-الذكاء-الاصطناعي) ينبغي أن تُؤطر كمهام استنتاجية تعتمد على [نظرية](/tag/نظرية) واضحة لقدرة النموذج، وهذه النظرة معروفة في مجالات مثل علم [القياس النفسي](/tag/[القياس](/tag/القياس)-النفسي) (Psychometrics)، لكنها لا تزال غير متطورة في [تقييمات](/tag/تقييمات) الذكاء الاصطناعي، حيث تُترك الافتراضات الأساسية غالباً دون توضيح.

لإثبات هذه الرؤية، تم تقديم تجربة تُظهر أن [الأداء](/tag/الأداء) المبلغ عنه يمكن أن يعتمد بشكل كبير على افتراضات المُقيِّم، مما يؤكد على الحاجة إلى ممارسات [تقييم](/tag/تقييم) واضحة تقوم على أسس [نظرية](/tag/نظرية). في ختام الورقة، يُقترح تقديم بطاقة [تقييم](/tag/تقييم) ([Evaluation](/tag/evaluation) Card) تساعد [الباحثين](/tag/الباحثين) على [توثيق](/tag/توثيق) وتبرير ومراجعة القرارات المتعلقة بالنماذج التي تقف وراء [تقييمات الذكاء الاصطناعي](/tag/[تقييمات](/tag/تقييمات)-الذكاء-الاصطناعي).

ما رأيكم في هذا التطور وأثره على فهمنا للذكاء الاصطناعي؟ شاركونا آراءكم في [التعليقات](/tag/التعليقات).