في عالم الذكاء الاصطناعي، تُستخدم نماذج اللغات الضخمة (Large Language Models) بشكل متزايد في تقييم الأداء على أساس مقاييس متعددة مثل الأسئلة الاختيارية (MCQs) والأسئلة المفتوحة (OEQs). لكن المفاجأة تكمن في أن هذه المعايير قد تضم عيباً خطيراً يُعرف بالتلوث المعياري.
يمثل التلوث تحدياً كبيراً، حيث يُظهر أن النماذج الأقل قوة تتمكن من أداء أفضل عندما تتعرض للمعايير أثناء التدريب، مما يؤدي إلى نتائج مضللة في التقييم. من هنا، جاءت دراسة حديثة لإعادة صياغة فكرة التلوث كجزء لا يتجزأ من عملية التعلم، محاولةً التمييز بين اكتساب القدرات الحقيقية والحفظ السطحي في تقييم هذه النماذج.
من خلال تحليل أداء النماذج تحت ظروف مختلفة تتعلق بالحفظ، تم اكتشاف اتجاه غير متوقع: إذ أن نماذج اللغات الضخمة تقدم أداءً أسوأ على المعايير المحفوظة عن ظهر قلب مقارنة بتلك التي لم تُحفظ، مما يبرز مفهومين مختلفين للتعلم: الحفظ السطحي والتعلم الفعلي.
لحل هذه الإشكالية، تم اقتراح إطار عمل جديد يُدعى TrinEval، الذي يعيد تشكيل الأسئلة الاختيارية إلى صيغة ثلاثية تركز على المعرفة، مما يقلل من تأثير الحفظ مع الحفاظ على المعرفة الجوهرية. وأثبتت التجارب الواسعة أن TrinEval فعّال في إعادة تقييم المعايير، مما يكشف أن معظم نماذج اللغات الضخمة تعتمد بالفعل على الحفظ السطحي بنسبة متوسطها 19.6% من نقاط المعرفة عبر مجموعتي بيانات MMLU وGSM8K.
تقدم هذه الاكتشافات أبعاداً جديدة لفهم كيفية تحسين أداء نماذج الذكاء الاصطناعي، مما يدعونا جميعاً للتفكير في مستقبل الذكاء الاصطناعي وقدرته على التعلم الحقيقي. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
هل تستخدم نماذج اللغات الضخمة (LLMs) الحفظ عن ظهر قلب؟ اكتشافات مذهلة في عالم الذكاء الاصطناعي!
دراسة جديدة تكشف عن أن نماذج اللغات الضخمة قد تعتمد بشكل كبير على الحفظ السطحي بدلاً من الفهم الحقيقي. تعرّف على كيفية إعادة تقييم قدراتها من خلال إطار عمل مبتكر.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
