أعلنت مجموعة من الباحثين عن إطلاق معيار GVGAI-LLM، وهو معيار مبتكر يهدف إلى تقييم قدرات النماذج اللغوية الكبيرة (Large Language Models) في التفكير وحل المشكلات من خلال مجموعة متنوعة من ألعاب الفيديو. يعتمد GVGAI-LLM على إطار العمل المعروف بالذكاء الاصطناعي في الألعاب الفيديو (General Video Game AI) ويحتوي على مجموعة غنية من الألعاب بأسلوب الأركيد مصممة خصيصاً لاختبار مهارات النماذج في مهام تختلف عن المستويات الحالية لاختبار أداء نماذج LLM.

تم تصميم المعيار باستخدام لغة وصف لألعاب الفيديو، مما يسهل إنشاء ألعاب جديدة بسرعة، بما في ذلك القواعد والمستويات، مما يساهم في تقليل الإفراط في التكيّف على مر الزمن. كل حالة من حالات اللعبة تمثل بواسطة مجموعة مختصرة من الأحرف ASCII، مما يمكّن من معالجة فعالة بواسطة النماذج اللغوية.

حدد GVGAI-LLM مجموعة من المقاييس القابلة للتفسير، بما في ذلك نسبة الخطوات الهامة وكفاءة الخطوات والدرجة الإجمالية، لتقييم سلوك النماذج. من خلال عمليات تقييم صفرية عبر 118 لعبة مختلفة، كشف الباحثون عن قيود مستمرة لنماذج LLM الحالية في التفكير المكاني والتخطيط الأساسي. غالباً ما تظهر النماذج أخطاء في التفكير المكاني والمنطقي، مما يستدعي استخدام تقنيات تحسين السلوك الهيكلي وتوطين الأفكار المكانية.

على الرغم من أن هذه التدخلات تؤدي إلى تحسينات جزئية، إلا أن المعيار لا يزال بعيداً جداً عن الحل. ويشكل GVGAI-LLM منصة قابلة لإعادة الإنتاج تهدف إلى تعزيز الأبحاث حول قدرات نماذج اللغة، مع التركيز بشكل خاص على سلوك الوكلاء والتفكير المكاني. بالإضافة إلى ذلك، توفر قدرته على إنشاء معايير غير محدودة، سواء يدوياً أو بشكل إجرائي، إطاراً قابلاً للتوسع للتقييم المستمر على المدى الطويل.