في عالم الذكاء الاصطناعي، لا تزال القدرات البشرية تجذب الانتباه، وخاصة عندما يتعلق الأمر بنماذج الرؤية واللغة (Vision-Language Models) التي حققت نتائج جيدة في مجالات البرمجة والرياضيات. ولكن، كيف يمكن تقييم أدائها في مهام تدعوها الفطرة الطبيعية، مثل الإدراك والتنقل المكاني وإدارة الذاكرة؟
لذا، تم تطوير معيار جديد يُدعى VideoGameBench، حيث يشتمل هذا المعيار على عشرة ألعاب شائعة منذ التسعينيات، ويتيح لنماذج الرؤية واللغة التفاعل المباشر في الوقت الحقيقي. يتحدى هذا المعيار النماذج لإكمال الألعاب بالكامل فقط باستخدام المدخلات البصرية الخام ووصف عام للأهداف والتحكم، مما يمثل تحولًا كبيرًا عن النماذج السابقة التي كانت تعتمد على معلومات مساعدة محددة للألعاب.
ولتعزيز التحدي، تم إبقاء ثلاثة من هذه الألعاب سرية لتشجيع النماذج على تطوير حلول عامة يمكن تطبيقها على بيئات غير معروفة. ومع ذلك، أظهرت التجارب أن النماذج الرائدة في هذا المجال تواجه صعوبة في التقدم beyond بداية كل لعبة. يُعتبر وقت استنتاج القرارات أحد القيود الرئيسية للنماذج في الأوضاع الزمنية الحقيقية، مما أدى إلى تقديم نسخة أخرى تُدعى VideoGameBench Lite، حيث تتوقف اللعبة أثناء الانتظار للإجراء التالي من نموذج الذكاء الاصطناعي.
أفضل النماذج أداءً، مثل Gemini 2.5 Pro وClaude 3.7 Sonnet، استطاعت إكمال 0.48% من VideoGameBench و1.6% من VideoGameBench Lite فقط. آملين أن يساهم تشكيل هذه المهارات البشرية في تطوير هذا المعيار في تحفيز المزيد من البحث في هذه الاتجاهات.
استكشاف حدود الذكاء الاصطناعي: هل يمكن لنماذج الرؤية واللغة إكمال ألعاب الفيديو الشهيرة؟
تقدم دراسة جديدة تجربة مثيرة لاختبار قدرات نماذج الرؤية واللغة (VLMs) في ألعاب الفيديو. تعرفوا على VideoGameBench ولماذا تعتبر بيئة الاختبار المثالية لتقييم الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
