تُعتبر الثقة عنصراً أساسياً في ضمان موثوقية الأنظمة الذكية، خاصةً عند تنفيذ المهام المتعلقة بمعالجة اللغة الطبيعية (Natural Language Processing - NLP). رغم ذلك، لم تُطور حتى الآن أدوات تتحقق أو تقيم مستوى الثقة في نتائج الأنظمة متعددة الوكلاء.
البحوث السابقة دأبت على استخدام الثقة في نقاشات الأنظمة متعددة الوكلاء (Multiagent Debate - MAD) لوزن الرسائل، وتحفيز النقاش، أو لضبط أداء الوكلاء بشكل فردي، ولكن كانت تفتقر إلى القدرة على تجميع هذه الثقة في مستوى واحد لكل نظام.
هنا، نقدم ثلاثة بروتوكولات جديدة تُنتج إجابة نهائية مصحوبة بثقة مجمعة واحدة، من خلال تحويل إشارات الثقة الأولية لجعلها قابلة للمقارنة عبر النماذج المختلفة، ثم دمجها عبر التصويت الناعم أو من خلال دمج احتمالي نسميه دمج بايزي (Bayesian Fusion).
تظهر النتائج أن الثقة المجمعة التي نتوصل إليها أكثر تمييزاً (AUROC) من تلك التي توفرها أفضل وكيل فردي أو المعايير التقليدية للنقاش. في الوقت نفسه، تظل دقة النظام (F1-score) مستقرة وتتجاوز العواقب السلبية التي قد تترتب على النقاشات في المهام الأكثر غموضاً.
عند تحليل اثنين من مقدرات الثقة، الاحتمال التسلسلي (Sequence Probability) والإبلاغ الذاتي (Self-Report)، جنبًا إلى جنب مع مُعدلات ضبط بارامترية وغير بارامترية، نجد أن تحسين ضبط الثقة يحسن الدقة (F1) لكلا المقدرين، بينما تكون AUROC أقل اعتمادًا على هذا الضبط.
قمنا بتقييم ستة أزواج نقاش متجانسة وغير متجانسة عبر خمسة معايير وأربعة أنواع من المهام، مما يبرز مجموعة واسعة من قدرات النماذج وأحجامها.
بروتوكولات متعددة الوكلاء: كيف تعزز إشارات الثقة المجمعة من أداء الذكاء الاصطناعي؟
تمثل بروتوكولات متعددة الوكلاء ابتكاراً جديداً في مجال معالجة اللغة الطبيعية، حيث تقدم آلية لتجميع إشارات الثقة بواسطة أساليب متطورة. النتائج تظهر تحسيناً ملحوظاً في دقة الأنظمة الذكية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
