في دراسة جديدة، تم تسليط الضوء على ظاهرة "التحجيم العكسي" (Inverse Scaling) في نماذج اللغات الكبيرة (LLMs) عند التعامل مع مشكلات التوقع. تشير النتائج إلى أن النموذج الأكثر قدرة لا ينجح بالضرورة في تحقيق توقعات دقيقة، خاصة في السيناريوهات التي تحتوي على نمو مفرط في الوقت ومخاطر كبيرة للتغيرات المفاجئة.
تظهر الاختبارات على المنصة المبتكرة "ForecastBench-Sim" (FBSim)، حيث خضعت النماذج للاختبار من خلال تنبؤات للوباء الاصطناعي المُعتمد على نموذج السيطرة الخطي. وتُظهر النتائج أن النماذج الأكثر قدرة تفشل في تقديم توقعات توزيع موثوقة، وهو نمط يتكرر في بيانات العالم الحقيقي مثل COVID-19 والحصبة وأسواق الإسكان.
بالرغم من توفر المعرفة في مجالات معينة، فإنها لا تحل مشكلة دقة النتائج. فقد أظهرت دراسة تناسب عائلات النماذج، مثل Llama-3.1، أن كلاً من حجم النموذج والتدريب اللاحق يسهمان في هذه الظاهرة.
من اللافت للنظر أن قياسات الدقة التقليدية ذات العتبات الثابتة تفوت تكلفة التوقعات في الأطراف العليا؛ بينما القياسات المقياسية الشاملة تعكس العلاقة بين القدرة والدقة.
في ضوء هذه النتائج، يقترح الباحثون أنه يجب استخدام مقاييس دقة مستمرة وغير محدودة في تقييم توقعات نماذج اللغات الكبيرة، بدلاً من الاعتماد فقط على المقاييس ذات العتبات الثنائية المحدودة. هل تعتقد أن هذه الديناميكية تستحق المزيد من الدراسة؟ شاركونا آرائكم في التعليقات!
هل تمثل القدرات العالية عائقاً؟ نماذج لغوية تعاني في توقعات مهمة!
يثير الباحثون مسألة شائكة حول عواقب القدرات العالية لنماذج اللغات الكبيرة (LLMs) في التوقعات. تتضح المفاجأة عندما تكشف الدراسات أن النماذج الأكثر قدرة تنتج توقعات أسوأ عندما تكون النتائج أكثر أهمية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
