في عالم الذكاء الاصطناعي المتسارع، غالباً ما يتم تصعيد نماذج اللغات الضخمة (Large Language Models) إلى مرتبة الخبراء البشريين في المهام الاقتصادية المعقدة. ومع أن هذه الادعاءات تصدح عالياً، فإنها تستند إلى اختبارات معيارية تقيم الأداء بدلالة متوسط النتائج على مجموعات بيانات موحدة.
لكن الواقع يخفي العديد من العيوب: العديد من هذه الاختبارات تركز على محتوى تم تدريبه بالفعل ضمن بيانات نماذج اللغات الضخمة، مما يحد من قدرتها على تقدير موثوقية الأداء أو حجم الأخطاء. في السياقات الحرجة، تصبح هذه الجوانب ذات أهمية قصوى.
في دراسة رائدة، تم تقديم مهمة تقييم جديدة لنماذج اللغات الضخمة، تتطلب كتابة كود برمجي لإكمال مهمة تحليل بيانات. من خلال هذه المهمة، تمت المقارنة بين أداء نموذج لِغة حديث ضد مساهمات من خبراء بشريين، مع قياس التباين في الردود وحجم الأخطاء.
أظهرت النتائج أن الخبراء البشر يتفوقون في الأداء المتوسط عبر مجموعة من المقاييس، كما أن لديهم تبايناً أقل في الأداء. مما يوفر دليلاً قوياً على أن نماذج اللغات الضخمة لا تحقق أداءً ثابتاً على مستوى الخبراء البشر، ويؤكد على أهمية قياس التباين وتقييم حجم الأخطاء في تقييمات نماذج اللغات الضخمة.
إذاً، هل نحن على الطريق الصحيح في تقدير قدرات الذكاء الاصطناعي؟ الأمر يتطلب تفكيراً عميقاً!
هل يخدعنا الذكاء الاصطناعي؟ كشف الحقائق الغائبة عن نماذج اللغات الضخمة!
تظهر دراسة جديدة أن نماذج اللغات الضخمة (LLMs) قد لا تحقق أداءً يضاهي الخبراء البشريين في المهام المعقدة. هل نحن في مسار وهمي حول قدرات الذكاء الاصطناعي؟
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
