في عالم الذكاء الاصطناعي، لا تزال القدرات البشرية تجذب الانتباه، وخاصة عندما يتعلق الأمر بنماذج [الرؤية واللغة](/tag/[الرؤية](/tag/الرؤية)-واللغة) ([Vision-Language Models](/tag/vision-language-models)) التي حققت نتائج جيدة في مجالات [البرمجة](/tag/البرمجة) والرياضيات. ولكن، كيف يمكن [تقييم](/tag/تقييم) أدائها في مهام تدعوها الفطرة الطبيعية، مثل الإدراك والتنقل المكاني وإدارة [الذاكرة](/tag/الذاكرة)؟

لذا، تم [تطوير](/tag/تطوير) [معيار جديد](/tag/معيار-[جديد](/tag/جديد)) يُدعى VideoGameBench، حيث يشتمل هذا المعيار على عشرة [ألعاب](/tag/ألعاب) شائعة منذ التسعينيات، ويتيح لنماذج [الرؤية واللغة](/tag/[الرؤية](/tag/الرؤية)-واللغة) [التفاعل المباشر](/tag/[التفاعل](/tag/التفاعل)-المباشر) في الوقت الحقيقي. يتحدى هذا المعيار [النماذج](/tag/النماذج) لإكمال [الألعاب](/tag/الألعاب) بالكامل فقط باستخدام المدخلات البصرية الخام ووصف عام للأهداف والتحكم، مما يمثل تحولًا كبيرًا عن [النماذج](/tag/النماذج) السابقة التي كانت تعتمد على [معلومات](/tag/معلومات) مساعدة محددة للألعاب.

ولتعزيز التحدي، تم إبقاء ثلاثة من هذه [الألعاب](/tag/الألعاب) سرية لتشجيع [النماذج](/tag/النماذج) على [تطوير](/tag/تطوير) [حلول](/tag/حلول) عامة يمكن تطبيقها على بيئات غير معروفة. ومع ذلك، أظهرت [التجارب](/tag/التجارب) أن [النماذج](/tag/النماذج) الرائدة في هذا المجال تواجه صعوبة في التقدم beyond بداية كل لعبة. يُعتبر وقت [استنتاج](/tag/استنتاج) القرارات أحد [القيود](/tag/القيود) الرئيسية للنماذج في الأوضاع الزمنية الحقيقية، مما أدى إلى تقديم نسخة أخرى تُدعى VideoGameBench Lite، حيث تتوقف اللعبة أثناء الانتظار للإجراء التالي من [نموذج الذكاء الاصطناعي](/tag/[نموذج](/tag/نموذج)-الذكاء-الاصطناعي).

أفضل [النماذج](/tag/النماذج) أداءً، مثل [Gemini](/tag/gemini) 2.5 Pro وClaude 3.7 Sonnet، استطاعت إكمال 0.48% من VideoGameBench و1.6% من VideoGameBench Lite فقط. آملين أن يساهم تشكيل هذه المهارات البشرية في [تطوير](/tag/تطوير) هذا المعيار في [تحفيز](/tag/تحفيز) المزيد من [البحث](/tag/البحث) في هذه الاتجاهات.