في عالم الذكاء الاصطناعي، تتصارع نماذج اللغات الضخمة (LLMs) مع تحديات جديدة تختبر قدرتها على التقييم والحكم. دراسة حديثة تناولت ما إذا كانت هذه النماذج تستطيع الحكم بشكل أفضل مما تولده من نصوص، حيث تم اختبار ذلك في إطار مخصص لتقييم الأسئلة والأجوبة (In-Context QA).
تبيّن النتائج أن الافتراض القائم على أن عملية التقييم أسهل من عملية التوليد ليس صحيحًا دائمًا. حيث أظهرت الأبحاث أن دقة توليد النصوص تفوقت على عملية التقييم في ثلاثة من بين أربعة اختبارات تم إجراؤها، ما عدا اختبار متعدد الخطوات "MuSiQue".
تكشف الدراسة أيضًا أن نموذج التقييم لا يركز على السياق بنفس درجة التركيز في التوليد، حيث قام بتوجيه انتباهه إلى السياق بقدر 3-5 مرات أقل مقارنة بتوليد النصوص. علاوة على ذلك، أظهرت نتائج التحليل أن نموذج التوليد يلجأ بشكل مفرط لقبول الإجابات، بينما نموذج التقييم كان له تأثير سلبي على التوليد.
هذه النتائج تفتح أبوابًا جديدة للنقاش حول كيفية تطوير نماذج الذكاء الاصطناعي وجعلها أكثر كفاءة في كل من التقييم والتوليد، مما يستدعي إعادة النظر في الافتراضات الأساسية التي تحكم العمليات التقييمية في هذه النماذج. هل لديك أفكار حول كيفية تحسين هذه النماذج؟ شاركنا برأيك في التعليقات!
هل تستطيع نماذج اللغات الضخمة (LLMs) الحكم بشكل أفضل من توليد النصوص؟ تحليل مثير حول تقييم دقة الإجابات
تتنافس نماذج اللغات الضخمة (LLMs) في قدرتها على الحكم وتوليد النصوص، حيث تشير النتائج إلى أن دقة التوليد تتفوق على التقييم في معظم الحالات. استكشاف مثير يُعيد النظر في افتراضات التقييم الذاتي لهذه النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
