تحديات الثقة اللفظية في نماذج التعلم الآلي: دراسة جديدة تكشف المستور!

في الآونة الأخيرة، أصبحت نماذج اللغات الضخمة (Large Language Models) محور اهتمام كبير في مجال الذكاء الاصطناعي، خصوصًا مع تزايد الاعتماد عليها في التطبيقات اليومية. لكن، هل يمكننا حقًا الاعتماد على الثقة اللفظية التي تقدمها هذه النماذج؟ في دراسة جديدة نُشرت على منصة arXiv، تم اختبار مدى فعالية سبعة نماذج مفتوحة بوزن متغير وتحتوي على بين 3 إلى 9 مليارات معلمة في إنتاج ثقة لفظية تلبي المعايير النفسية الأساسية.

بدراسة تضمنت 524 عنصرًا من TriviaQA، قام الباحثون بتقييم ثقة النماذج من خلال أساليب عدة، بما في ذلك استجابات عددية من 0 إلى 100 وأخرى تصنيفية من 10 فئات. في هذه التجربة، تم تنفيذ 8,384 تجربة حاسوبية على معدات استهلاكية، وهو ما يوفر مقياسًا حقيقيًا للأداء.

للأسف، أظهرت جميع النماذج السبع أداءً غير مرضٍ عند قياس الثقة العددية، حيث كانت المعدلات تصل إلى سقف 91.7% في دقة القرارات. وعند استخدام elicitation الفئوي، لم يتحسن الأداء، بل شهدت النماذج تراجعًا خطيرًا في الدقة، إذ انخفضت النسبة إلى أقل من 5% في ستة من أصل سبعة نماذج. تُظهر هذه النتائج أن هناك مشكلات واضحة في كيفية التعبير عن الثقة داخل هذه النماذج، مما يستدعي ضرورة إجراء فحص نفسي شامل قبل الاعتماد عليها في التطبيقات المختلفة.

تؤكد هذه الدراسة أن الإشارة الداخلية للثقة ليست موجودة فقط، بل هي إشارة مختلطة تتطلب اهتمامًا إضافيًا. لذا، يجب على المطورين والباحثين العمل على تحسين هذه الجوانب قبل استخدام النماذج في سياقات حساسة. ما رأيكم في هذه النتائج المثيرة؟ هل تعتقدون أن هذه النماذج يمكن الاعتماد عليها في المستقبل؟ شاركونا في التعليقات!

تحديات الثقة اللفظية في نماذج التعلم الآلي: دراسة جديدة تكشف المستور!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

هل تتعذر عليك الحصول على جهاز Mac Mini؟ تعرف على السبب وراء التأخير في التوريد!

هل يحدد OpenAI مستقبل الأمن السيبراني؟ الكشف عن أداة GPT-5.5 Cyber المبتكرة!

إيلون ماسك يكشف السر: كيف قامت xAI بتدريب Grok باستخدام نماذج OpenAI!