في عالم الذكاء الاصطناعي، تعد تقديرات الثقة إحدى الأدوات الأساسية لضمان نشر التطبيقات بشكل آمن وفعال. ومع ذلك، كانت الأساليب التقليدية، مثل الاعتماد على التناسق الذاتي عبر عدة عينات، تطرح تحديات كبيرة بسبب تكلفتها العالية وافتقارها للفهم الجواني للمسارات.
تقدم دراسة جديدة منهجية مبتكرة تقيس مستوى الثقة في الأنظمة القائمة على الذكاء الاصطناعي باستخدام نموذج "مسارات التفكير" (Chain-of-thought - CoT) على شكل مسارات انزلاقية. هذه الطريقة تعتمد على قياس درجة التقارب للأجوبة الصحيحة الخارجية بواسطة عملية تسمى
"softmax" ذات المعامل الواحد. والجدير بالذكر أن هذا الأسلوب لا يحتاج إلى إحصاءات مخفية أو إلى موجهات إشرافية، مما يجعله أكثر كفاءة.
عبر ستة إعدادات (منصات للتقييم) مختلفة، بما في ذلك MedQA-USMLE وGPQA Diamond، حققت هذه الطريقة تحسينات ملحوظة في معدل تقدير الثقة، حيث أثبتت أن دمج هذا النتيجة مع قنوات التغطية والثقة اللفظية يحقق نتائج تفوق الأساليب التقليدية. على سبيل المثال، أظهرت الدراسة أن التحسينات كانت ملموسة على مدى التقييمات، بأن أظهرت تعديلات في مجال اعتداد الثقة، مما يعكس تفوقها في ست من ست إعدادات.
علاوة على ذلك، قام الباحثون بتفكيك الثقة إلى ثلاثة مجالات رئيسية: النطاق قبل القاضي، الهندسة داخل المسارات، وقناة التعبير الشرطي. أوضحت النتائج أيضًا أن هذا النهج يعد تقدمًا ملحوظًا في كيفية قياس فهم الذكاء الاصطناعي لموارده النصية.
في النهاية، يمكن القول إن نقل ودعم التعلم من خلال ممارسات التقدير الحديثة يعد توجهاً واعدًا في تطوير الذكاء الاصطناعي، ما يجعله أكثر موثوقية في التطبيقات العملية.
ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
ثورة في تقدير الثقة: قياس ثقة صناديق الأسود عبر مسارات التفكير!
أحدثت الدراسة الجديدة تحولاً في تقدير الثقة في الذكاء الاصطناعي من خلال قياس مسارات التفكير. اعتمدت الطريقة على تحليل تفاعلي يُعتبر ثورة في مجال التطبيقات المعتمدة على النصوص فقط.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
