في الآونة الأخيرة، أصبحت نماذج اللغات الضخمة (Large Language Models) محور اهتمام كبير في مجال الذكاء الاصطناعي، خصوصًا مع تزايد الاعتماد عليها في التطبيقات اليومية. لكن، هل يمكننا حقًا الاعتماد على الثقة اللفظية التي تقدمها هذه النماذج؟ في دراسة جديدة نُشرت على منصة arXiv، تم اختبار مدى فعالية سبعة نماذج مفتوحة بوزن متغير وتحتوي على بين 3 إلى 9 مليارات معلمة في إنتاج ثقة لفظية تلبي المعايير النفسية الأساسية.
بدراسة تضمنت 524 عنصرًا من TriviaQA، قام الباحثون بتقييم ثقة النماذج من خلال أساليب عدة، بما في ذلك استجابات عددية من 0 إلى 100 وأخرى تصنيفية من 10 فئات. في هذه التجربة، تم تنفيذ 8,384 تجربة حاسوبية على معدات استهلاكية، وهو ما يوفر مقياسًا حقيقيًا للأداء.
للأسف، أظهرت جميع النماذج السبع أداءً غير مرضٍ عند قياس الثقة العددية، حيث كانت المعدلات تصل إلى سقف 91.7% في دقة القرارات. وعند استخدام elicitation الفئوي، لم يتحسن الأداء، بل شهدت النماذج تراجعًا خطيرًا في الدقة، إذ انخفضت النسبة إلى أقل من 5% في ستة من أصل سبعة نماذج. تُظهر هذه النتائج أن هناك مشكلات واضحة في كيفية التعبير عن الثقة داخل هذه النماذج، مما يستدعي ضرورة إجراء فحص نفسي شامل قبل الاعتماد عليها في التطبيقات المختلفة.
تؤكد هذه الدراسة أن الإشارة الداخلية للثقة ليست موجودة فقط، بل هي إشارة مختلطة تتطلب اهتمامًا إضافيًا. لذا، يجب على المطورين والباحثين العمل على تحسين هذه الجوانب قبل استخدام النماذج في سياقات حساسة. ما رأيكم في هذه النتائج المثيرة؟ هل تعتقدون أن هذه النماذج يمكن الاعتماد عليها في المستقبل؟ شاركونا في التعليقات!
تحديات الثقة اللفظية في نماذج التعلم الآلي: دراسة جديدة تكشف المستور!
تناقش دراسة جديدة تأثير نماذج التعلم الآلي على القدرة على التعبير عن الثقة اللفظية. النتائج تمهد الطريق لفهم أفضل للتحديات المتعلقة بالتحقق النفسي لهذه النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
