في عالم الذكاء الاصطناعي، تُستخدم [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) بشكل متزايد في [تقييم الأداء](/tag/[تقييم](/tag/تقييم)-[الأداء](/tag/الأداء)) على أساس [مقاييس](/tag/مقاييس) متعددة مثل الأسئلة الاختيارية (MCQs) والأسئلة المفتوحة (OEQs). لكن المفاجأة تكمن في أن هذه [المعايير](/tag/المعايير) قد تضم عيباً خطيراً يُعرف بالتلوث المعياري.
يمثل التلوث تحدياً كبيراً، حيث يُظهر أن [النماذج](/tag/النماذج) الأقل [قوة](/tag/قوة) تتمكن من [أداء](/tag/أداء) أفضل عندما تتعرض للمعايير أثناء التدريب، مما يؤدي إلى نتائج مضللة في [التقييم](/tag/التقييم). من هنا، جاءت [دراسة](/tag/دراسة) حديثة لإعادة صياغة فكرة التلوث كجزء لا يتجزأ من عملية التعلم، محاولةً التمييز بين اكتساب القدرات الحقيقية والحفظ السطحي في [تقييم](/tag/تقييم) هذه [النماذج](/tag/النماذج).
من خلال [تحليل أداء](/tag/[تحليل](/tag/تحليل)-[أداء](/tag/أداء)) [النماذج](/tag/النماذج) تحت ظروف مختلفة تتعلق بالحفظ، تم [اكتشاف](/tag/اكتشاف) اتجاه غير متوقع: إذ أن [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) تقدم أداءً أسوأ على [المعايير](/tag/المعايير) المحفوظة عن ظهر قلب مقارنة بتلك التي لم تُحفظ، مما يبرز مفهومين مختلفين للتعلم: الحفظ السطحي والتعلم الفعلي.
لحل هذه الإشكالية، تم [اقتراح](/tag/اقتراح) إطار [عمل](/tag/عمل) [جديد](/tag/جديد) يُدعى TrinEval، الذي يعيد تشكيل الأسئلة الاختيارية إلى صيغة ثلاثية تركز على المعرفة، مما يقلل من تأثير الحفظ مع الحفاظ على [المعرفة](/tag/المعرفة) الجوهرية. وأثبتت [التجارب](/tag/التجارب) الواسعة أن TrinEval فعّال في إعادة [تقييم](/tag/تقييم) المعايير، مما يكشف أن معظم [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) تعتمد بالفعل على الحفظ السطحي بنسبة متوسطها 19.6% من نقاط [المعرفة](/tag/المعرفة) [عبر](/tag/عبر) مجموعتي [بيانات](/tag/بيانات) MMLU وGSM8K.
تقدم هذه الاكتشافات أبعاداً جديدة لفهم كيفية [تحسين أداء](/tag/[تحسين](/tag/تحسين)-[أداء](/tag/أداء)) [نماذج](/tag/نماذج) الذكاء الاصطناعي، مما يدعونا جميعاً للتفكير في [مستقبل الذكاء الاصطناعي](/tag/[مستقبل](/tag/مستقبل)-الذكاء-الاصطناعي) وقدرته على [التعلم](/tag/التعلم) الحقيقي. ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات).
هل تستخدم نماذج اللغات الضخمة (LLMs) الحفظ عن ظهر قلب؟ اكتشافات مذهلة في عالم الذكاء الاصطناعي!
دراسة جديدة تكشف عن أن نماذج اللغات الضخمة قد تعتمد بشكل كبير على الحفظ السطحي بدلاً من الفهم الحقيقي. تعرّف على كيفية إعادة تقييم قدراتها من خلال إطار عمل مبتكر.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
