في عالم الذكاء الاصطناعي، تأتي الحاجة إلى تقييم أداء الوكلاء الذكيين مع زيادة استخدامهم في مختلف المجالات. خاصةً، يسعى المطورون دائماً إلى التأكد من أن هذه الوكلاء يعتمدون على معلومات سليمة ودقيقة. هنا يأتي دور "جراند إيفال" (GroundEval) كإطار تقييم جديد يهدف إلى تحسين موثوقية هذه الأنظمة.
تتمثل فكرة "جراند إيفال" في اختبار موزون ومحسوب يراعي ما إذا كان الوكيل لديه الحق في الوصول إلى الأدلة المستخدمة في قراراته. وفي دراسة حالة، تم استخدام نموذجين من نماذج اللغة الكبرى (LLMs) لتقييم استجابة وكيل ما. في حين أن أحد الموديلات منح استجابة تقييمية 0.85 لم يكن للعالم إلا أن تتضح القصة الحقيقية: الوكيل لم يسترجع المعلومات التي اعتمد عليها، مما أعطى نتيجة 0.000 في نظام "جراند إيفال".
يعمل "جراند إيفال" كإطار خالي من القضاة لتقييم الوكلاء ضد الأدلة المستندة إلى الزمن المحدد، وبإمكانيات وصول محكمة. يشمل الإطار توليد أسئلة بحسب مجال معين، ويعطي الوكيل الفرصة لاختيار كيفية الإجابة، وفي النهاية يقوم بتقييم الإجابة النهائية والمسار الذي تم اتخاذه لإنتاجها.
تستهدف هذه التقنية ثلاثة جوانب فشل يصعب على نماذج اللغة الكبرى اكتشافها، وهي: مضي الوقت، وجهة النظر، والسيناريو البديل. تكشف "جراند إيفال" متى تكون الإجابات المحتملة تستند إلى مسارات أدلة غير صالحة، وتنتج تشخيصات منظمة لكل سؤال تربط بين نشاط الأداة وسرد الوكيل.
من خلال دراسات الحالة، اتضح أن وضع الفشل هذا شائع بدلاً من أن يكون استثنائياً، وهذا ما يجعل "جراند إيفال" أداة قيمة في مسيرة تطوير الذكاء الاصطناعي والتأكد من موثوقيته.
جراند إيفال: ثورة في تقييم الوكلاء الذكيين دون الحاجة لقضاة!
تقدم تقنية جراند إيفال طريقة جديدة لتقييم الوكلاء الذكيين بحيث تضمن موثوقية الأدلة المستخدمة في قراراتهم. تعالج هذه التقنية القيود التي تواجه نماذج اللغة الكبرى حينما تُستخدم كقضاة في التقييم.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
