اكتشاف أفق جديد في تقييم الذكاء الاصطناعي: مفهوم توازن البطولات اللينة

يُعدّ تقييم الوكلاء الاصطناعيين، خصوصاً أولئك المعتمدين على نماذج اللغات الضخمة (Large Language Models)، من التحديات الكبيرة بسبب طبيعة تفاعلاتهم غير المتناظرة. فعندما يتفوق الوكيل A على الوكيل B، ويهزم B الوكيل C، في حين يتفوق C على الوكيل A، تصبح طرق الترتيب التقليدية غير موثوقة وغير مستقرة. لذلك، تقترح هذه الورقة عدم الاكتفاء بالترتيب كهدف للتقييم، بل التركيز على مجموعة من القيم الأساسية، كما هو موضح في نظرية البطولات التقليدية.

تقدم الورقة مفهوم توازن البطولات اللينة (Soft Tournament Equilibrium - STE)، وهو إطار عمل قابل للتحليل يهدف إلى تعلم وحساب الحلول ذات القيم المجمعة مباشرة من بيانات المقارنات الثنائية. تبدأ العملية بتعلم نموذج بطولة احتمالي يحتمل أن يكون مشروطًا بمعلومات سياقية غنية. ثم يتضمن استخدام مشغلات قابلة للاشتقاق للوصول الناعم والتغطية الناعمة لحساب المعادلات المستمرة لاثنين من الحلول المعروفة في البطولات: الدورة العليا (Top Cycle) والمجموعة غير المغطاة (Uncovered Set).

النتيجة هي مجموعة من الوكلاء الرئيسيين، كل واحد منهم لديه درجة عضوية مستمرة يمكن تعديلها عندما تتوفر تسميات تحقق مناسبة أو أدلة من إعادة أخذ العينات. وقد تم تطوير الأساس النظري لـ STE من خلال إثبات التوافق مع الحلول الكلاسيكية في حد درجة الحرارة الصفرية، وتأسيس خصائص تشمل كونددورسيه (Condorcet-inclusion) وتقييم الاستقرار وتعقيد العينات. كما تم تقييم الطريقة على معيار أساسي لدورة مزروعة وعلى تشخيصات تفضيل وتنفيذ حقيقية.

يقدم هذا العمل حسماً شاملاً يركز تقييم الوكالات العامة على أساس قوي من نظرية البطولات، مما يمهد الطريق للتحول من التصنيفات غير المستقرة نحو التوازنات المستقرة ذات القيم المجمعة.

اكتشاف أفق جديد في تقييم الذكاء الاصطناعي: مفهوم توازن البطولات اللينة

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

تحقيق أقصى كفاءة للأنظمة والأحمال على منصة NVIDIA GB200 NVL72 باستخدام جدولة Slurm الثورية!

جنون 'العفاريت' في ChatGPT: ما الذي يحير مستخدميه في الصين؟

كيف أعادت الأسطورة (Mythos) من أنثروبك تشكيل نهج فايرفوكس نحو الأمن السيبراني؟