في عالم الذكاء الاصطناعي، تُستخدم [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) بشكل متزايد في [تقييم الأداء](/tag/[تقييم](/tag/تقييم)-[الأداء](/tag/الأداء)) على أساس [مقاييس](/tag/مقاييس) متعددة مثل الأسئلة الاختيارية (MCQs) والأسئلة المفتوحة (OEQs). لكن المفاجأة تكمن في أن هذه [المعايير](/tag/المعايير) قد تضم عيباً خطيراً يُعرف بالتلوث المعياري.

يمثل التلوث تحدياً كبيراً، حيث يُظهر أن [النماذج](/tag/النماذج) الأقل [قوة](/tag/قوة) تتمكن من [أداء](/tag/أداء) أفضل عندما تتعرض للمعايير أثناء التدريب، مما يؤدي إلى نتائج مضللة في [التقييم](/tag/التقييم). من هنا، جاءت [دراسة](/tag/دراسة) حديثة لإعادة صياغة فكرة التلوث كجزء لا يتجزأ من عملية التعلم، محاولةً التمييز بين اكتساب القدرات الحقيقية والحفظ السطحي في [تقييم](/tag/تقييم) هذه [النماذج](/tag/النماذج).

من خلال [تحليل أداء](/tag/[تحليل](/tag/تحليل)-[أداء](/tag/أداء)) [النماذج](/tag/النماذج) تحت ظروف مختلفة تتعلق بالحفظ، تم [اكتشاف](/tag/اكتشاف) اتجاه غير متوقع: إذ أن [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) تقدم أداءً أسوأ على [المعايير](/tag/المعايير) المحفوظة عن ظهر قلب مقارنة بتلك التي لم تُحفظ، مما يبرز مفهومين مختلفين للتعلم: الحفظ السطحي والتعلم الفعلي.

لحل هذه الإشكالية، تم [اقتراح](/tag/اقتراح) إطار [عمل](/tag/عمل) [جديد](/tag/جديد) يُدعى TrinEval، الذي يعيد تشكيل الأسئلة الاختيارية إلى صيغة ثلاثية تركز على المعرفة، مما يقلل من تأثير الحفظ مع الحفاظ على [المعرفة](/tag/المعرفة) الجوهرية. وأثبتت [التجارب](/tag/التجارب) الواسعة أن TrinEval فعّال في إعادة [تقييم](/tag/تقييم) المعايير، مما يكشف أن معظم [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) تعتمد بالفعل على الحفظ السطحي بنسبة متوسطها 19.6% من نقاط [المعرفة](/tag/المعرفة) [عبر](/tag/عبر) مجموعتي [بيانات](/tag/بيانات) MMLU وGSM8K.

تقدم هذه الاكتشافات أبعاداً جديدة لفهم كيفية [تحسين أداء](/tag/[تحسين](/tag/تحسين)-[أداء](/tag/أداء)) [نماذج](/tag/نماذج) الذكاء الاصطناعي، مما يدعونا جميعاً للتفكير في [مستقبل الذكاء الاصطناعي](/tag/[مستقبل](/tag/مستقبل)-الذكاء-الاصطناعي) وقدرته على [التعلم](/tag/التعلم) الحقيقي. ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات).