في عالم الذكاء الاصطناعي، لا تزال القدرات البشرية تجذب الانتباه، وخاصة عندما يتعلق الأمر بنماذج [الرؤية واللغة](/tag/[الرؤية](/tag/الرؤية)-واللغة) ([Vision-Language Models](/tag/vision-language-models)) التي حققت نتائج جيدة في مجالات [البرمجة](/tag/البرمجة) والرياضيات. ولكن، كيف يمكن [تقييم](/tag/تقييم) أدائها في مهام تدعوها الفطرة الطبيعية، مثل الإدراك والتنقل المكاني وإدارة [الذاكرة](/tag/الذاكرة)؟
لذا، تم [تطوير](/tag/تطوير) [معيار جديد](/tag/معيار-[جديد](/tag/جديد)) يُدعى VideoGameBench، حيث يشتمل هذا المعيار على عشرة [ألعاب](/tag/ألعاب) شائعة منذ التسعينيات، ويتيح لنماذج [الرؤية واللغة](/tag/[الرؤية](/tag/الرؤية)-واللغة) [التفاعل المباشر](/tag/[التفاعل](/tag/التفاعل)-المباشر) في الوقت الحقيقي. يتحدى هذا المعيار [النماذج](/tag/النماذج) لإكمال [الألعاب](/tag/الألعاب) بالكامل فقط باستخدام المدخلات البصرية الخام ووصف عام للأهداف والتحكم، مما يمثل تحولًا كبيرًا عن [النماذج](/tag/النماذج) السابقة التي كانت تعتمد على [معلومات](/tag/معلومات) مساعدة محددة للألعاب.
ولتعزيز التحدي، تم إبقاء ثلاثة من هذه [الألعاب](/tag/الألعاب) سرية لتشجيع [النماذج](/tag/النماذج) على [تطوير](/tag/تطوير) [حلول](/tag/حلول) عامة يمكن تطبيقها على بيئات غير معروفة. ومع ذلك، أظهرت [التجارب](/tag/التجارب) أن [النماذج](/tag/النماذج) الرائدة في هذا المجال تواجه صعوبة في التقدم beyond بداية كل لعبة. يُعتبر وقت [استنتاج](/tag/استنتاج) القرارات أحد [القيود](/tag/القيود) الرئيسية للنماذج في الأوضاع الزمنية الحقيقية، مما أدى إلى تقديم نسخة أخرى تُدعى VideoGameBench Lite، حيث تتوقف اللعبة أثناء الانتظار للإجراء التالي من [نموذج الذكاء الاصطناعي](/tag/[نموذج](/tag/نموذج)-الذكاء-الاصطناعي).
أفضل [النماذج](/tag/النماذج) أداءً، مثل [Gemini](/tag/gemini) 2.5 Pro وClaude 3.7 Sonnet، استطاعت إكمال 0.48% من VideoGameBench و1.6% من VideoGameBench Lite فقط. آملين أن يساهم تشكيل هذه المهارات البشرية في [تطوير](/tag/تطوير) هذا المعيار في [تحفيز](/tag/تحفيز) المزيد من [البحث](/tag/البحث) في هذه الاتجاهات.
استكشاف حدود الذكاء الاصطناعي: هل يمكن لنماذج الرؤية واللغة إكمال ألعاب الفيديو الشهيرة؟
تقدم دراسة جديدة تجربة مثيرة لاختبار قدرات نماذج الرؤية واللغة (VLMs) في ألعاب الفيديو. تعرفوا على VideoGameBench ولماذا تعتبر بيئة الاختبار المثالية لتقييم الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
