في عالم الذكاء الاصطناعي، تبقى عملية تقييم وسطاء نماذج اللغات الضخمة (LLMs) من التحديات الكبيرة، إذ تتشكل الوساطة خلال تفاعلات زمنية حقيقية تعتمد على المشاعر المتقلبة، النوايا، والسياق للأطراف المتنازعة. تقدم SoCRATES، المعروفة كمنصة جديدة لتقييم وسطاء LLM، نهجًا مبتكرًا يركز على هذه التحديات.
تعتبر SoCRATES معيارًا فريدًا مصممًا لتقييم وسطاء LLM بشكل موثوق ضمن بيئات متعددة المجالات. حيث تشير الدراسات إلى أن العديد من نماذج الاختبار السابقة اعتمدت على بعض المجالات التي كتبها خبراء معينون، وتنوعت بشكل أساسي من حيث الاستراتيجيات، مما أدى إلى إدخال ضجيج غير ذو صلة في تقييم كل مرحلة.
تتيح SoCRATES إنشاء سيناريوهات من صراعات حقيقية من خلال خط أنابيب ذكي عبر ثمانية مجالات، وتستكشف خمسة محاور للتكيف الاجتماعي والمعرفي تشمل: الوضع الاستراتيجي، تركيب الأطراف، طول التاريخ، ردود الفعل العاطفية، والهوية الثقافية. كما أنه يتم تقييم كل موضوع وفق التحولات التي تدفعه قدماً، مما يحسن دقة التقييم.
تظهر النتائج أن المنصة تصل إلى توافق بنسبة 0.82 مع الخبراء البشريين، مما يتجاوز ضعف قاعدة التقييم السابقة المعتمدة على كل تحول. ومع تقويم ثمانية من النماذج الأساسية، وُجد أن حتى أنجح الوسطاء ينجحون في سد ثلث فجوة التوافق غير الوساطة المحددة، مما يبين أن الأداء يتغير بشكل حاد بحسب المحاور الاجتماعية والمعرفية، مما يعكس أهمية التكيف الاجتماعي في مواجهة الظروف المتنوعة.
انطلاقة جديدة في تقييم وسطاء الذكاء الاصطناعي: تعرف على SoCRATES
تمثل SoCRATES معلمًا جديدًا في تقييم وسطاء نماذج اللغات الضخمة (LLMs) وسط تنوع مواقف الأطراف وتغيراتها. المنهجية المبتكرة تساعد على تقديم تقييمات أكثر دقة لآلية الوساطة في المواقف الواقعية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
