في عصر الذكاء الاصطناعي، تعتبر مهارات التفاوض من المهام الأساسية التي تحتاج إلى استراتيجيات دقيقة وذكاء يُشبه نظرية العقل. وأخيرًا، تم تقديم 'بي آرينا'، معيار جديد يُقيّم قدرة نماذج اللغة الضخمة (Large Language Models) على التفاوض في سيناريوهات واقعية مستوحاة من دورات الماجستير في إدارة الأعمال في إحدى المدارس التجارية الراقية.
يقوم الباحثون من خلال 'بي آرينا' بتقييم وكلاء اللغة عبر ثلاثة أنماط من المقابلات: اللعب المماثل (mirror-play)، اللعب العابر (cross-play)، ولعب الإنسان مع النموذج اللغوي (human-LM play). وقد تم تطوير نموذج ترتيب للأداء المستمر في التفاوض، مما يسهل إنشاء لوحات القيادة التي تُعدل لتجنب تحيزات تجريبية.
علاوة على ذلك، يكشف البحث عن تأثيرات شراكة النية المشتركة، حيث لوحظت فوائد غير متماثلة، مما يؤدي إلى تحسينات كبيرة في النماذج المتوسطة والدنيا وتقلص العوائد للنماذج الرائدة. وباستخدام بيانات التفاوض من طلاب تجارة مدربين، تمكن نموذج لغوي رائد (مثل GPT-5) من المنافسة مع البشر في هذه السيناريوهات.
مما يميز 'بي آرينا' عن غيره هو إتاحته ملف تعريف سلوكي متعدد الأبعاد يُظهر التباين بين النماذج في الامتثال للتعليمات، ودقة الحساب، وحتى تقييم الخداع والسمعة. هذا يبرز أهمية التقييم الذي يتجاوز النتائج النهائية فقط.
في عالم يزداد تعقيدًا، يسهل 'بي آرينا' فهم كيفية تفوق النماذج اللغوية في التفاوض، مؤكداً على إمكاناتها الهائلة ودورها المتزايد في الأعمال.
بي آرينا: تصنيف وتحليل وكلاء اللغة في سيناريوهات التفاوض الواقعية
اكتشاف مذهل في عالم الذكاء الاصطناعي مع مشروع 'بي آرينا'، الذي يقيّم قدرة نماذج اللغة الضخمة (LLMs) على التفاوض بشكل استراتيجي. النتائج تكشف عن تباين كبير في الأداء بين النماذج مع وجود تحسّن كبير في النماذج المتوسطة والدنيا!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
