في عالم الذكاء الاصطناعي، يتزايد الاعتماد على النماذج متعددة الأنماط (Multimodal Models) لحل المهام بالتعاون مع البشر أو وكلاء اصطناعيين آخرين. لكن تظل التحديات الحقيقية كالتواصل الفعال والضغط الزمني تحت المجهر.
لذا، في خطوة مبتكرة، تم إطلاق GPTNT، معيار جديد يستند إلى لعبة الفيديو التعاونية الشهيرة Keep Talking and Nobody Explodes. في هذه اللعبة، يلعب اثنان من الوكلاء دورًا حيويًا في تنسيق جهودهما لإبطال قنابل في أعقاب عد تنازلي مشوق. حيث يكون أحد الوكلاء قادرًا على رؤية والتلاعب بالقنبلة، بينما يمتلك الآخر التعليمات لكن لا يمكنه رؤية القنبلة.
ما يجعل GPTNT فريدًا هو تفصيله يتطلب من الوكلاء العمل بشكل متزامن، والتواصل في الوقت الحقيقي وإدارة الأزمات. تركز التجارب على قياس جوانب محددة مثل تتبع الحالة، والقيام بإجراءات فعالة تحت الضغط، والتعامل مع الغموض، واستعادة الأخطاء.
ومع ذلك، على عكس توقعات المطورين، لم تتمكن أي من النماذج المفتوحة أو المغلقة المصدر التي تم اختبارها من إبطال قنبلة واحدة في الوقت الحقيقي، وهو معامل يتجاوزه اللاعبون البشر.
من خلال تلك النتائج، نبرز نقاط الضعف الحيوية في الأداء الحالي للنماذج، ونُطلق GPTNT كمعيار يسلط الضوء على التحديات الحقيقية التي تواجهها النماذج الذكية." المعلومات المتدفقة من اللعبة تعني أن هذا المعيار سيتطور مع تقدم النماذج، لذا سيكون له تأثير طويل الأمد في المجال.
اكتشفوا GPTNT: معايير جديدة للتعاون في الذكاء الاصطناعي عبر لعبة ملحمية!
تم إطلاق GPTNT، معيار ثوري يهدف إلى اختبار قدرات النماذج متعددة الأنماط في بيئة تفاعلية. في لعبة Keep Talking and Nobody Explodes، يتحدى الوكلاء الاصطناعيون بعضهم البعض لحل الألغاز تحت ضغط الزمن والتواصل الفعال.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
