مع استمرار تحسين نماذج اللغة الضخمة (Large Language Models) وزيادة اعتمادها في حل مجموعة متنوعة من المهام، تظل مسألة الموثوقية في مقدمة الاهتمامات. حيث تعد دقة التقديرات أحد المؤشرات القوية للثقة، إذ تساعد التقديرات المدروسة على تحديد التوازن بين المخاطر والفوائد عند الاعتماد على ما يقدمه النموذج.
للأسف، رغم التحسينات المستمرة، تظل نماذج اللغة کیلاً ضعيف التشبع للمعلومات، وغالباً ما تميل إلى الإفراط في الثقة. كما أن تقدير الثقة يمكن أن يُستغل أو يتم التلاعب به؛ فتنبوءات تعتمد على النسب الأساسية تعتبر مُبلغة لكنها في الحقيقة غير مفيدة.
لمواجهة هذه التحديات، يقدم الباحثون مقياسًا جديدًا يُعرف باسم "توقع المنفعة المعاد تنظيمها بواسطة الأوركل" (Expected Utility Renormalized by the Oracle - EURO) الذي يوازن بين الدقة والقدرة على إبلاغ المعلومات. كما تم اقتراح بروتوكول عام يعتمد على التنشيط لتقدير الثقة، المنفعة، والموثوقية (ACUTE) الذي يسعى إلى تحديد عدم اليقين بشكل مناسب.
يقدم بروتوكول ACUTE تقديرات ثقة مرنة، فعالة، ومنخفضة التكلفة لثلاث مهام، بما في ذلك الإجابة على الأسئلة متعددة الخيارات، استدعاء الأدوات، وتلخيص الوثائق العلمية، مضمنًا 6 نماذج من 4 عائلات مختلفة. وقد تفوق ACUTE على معايير قوية على مقياس الـ EURO مع الحفاظ على خطأ دقة منخفض.
هذا العمل يبرز كيف أن تجهيز نماذج اللغة الضخمة ببروتوكول ACUTE يمكن أن يحسن من دقتها، منفعتها، وموثوقيتها في مجموعة واسعة من الإعدادات. هل أنتم مستعدون لاستكشاف الآفاق الجديدة لهذا البروتوكول؟ شاركونا آراءكم!
بروتوكول ACUTE: تحسين موثوقية نماذج اللغة من خلال تفعيل دقيق وواضح
تكشف دراسة جديدة عن بروتوكول ACUTE الذي يعزز موثوقية نماذج اللغة من خلال تحسين أداء التقديرات، مما يضمن تسليم نتائج دقيقة وموثوقة. هل تعزز هذه التطورات من ثقتنا في الذكاء الاصطناعي؟
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
