أعلنت مجموعة من [الباحثين](/tag/الباحثين) عن إطلاق معيار GVGAI-LLM، وهو معيار مبتكر يهدف إلى [تقييم](/tag/تقييم) قدرات [النماذج اللغوية الكبيرة](/tag/[النماذج](/tag/النماذج)-اللغوية-الكبيرة) (Large Language [Models](/tag/models)) في [التفكير](/tag/التفكير) وحل المشكلات من خلال مجموعة متنوعة من [ألعاب](/tag/ألعاب) [الفيديو](/tag/الفيديو). يعتمد GVGAI-[LLM](/tag/llm) على [إطار العمل](/tag/إطار-العمل) المعروف بالذكاء الاصطناعي في [الألعاب](/tag/الألعاب) [الفيديو](/tag/الفيديو) (General Video Game [AI](/tag/ai)) ويحتوي على مجموعة غنية من [الألعاب](/tag/الألعاب) بأسلوب الأركيد مصممة خصيصاً لاختبار [مهارات](/tag/مهارات) [النماذج](/tag/النماذج) في مهام تختلف عن المستويات الحالية لاختبار [أداء](/tag/أداء) [نماذج](/tag/نماذج) [LLM](/tag/llm).

تم [تصميم](/tag/تصميم) المعيار باستخدام [لغة](/tag/لغة) وصف لألعاب الفيديو، مما يسهل إنشاء [ألعاب](/tag/ألعاب) جديدة بسرعة، بما في ذلك القواعد والمستويات، مما يساهم في تقليل الإفراط في التكيّف على مر الزمن. كل حالة من حالات [اللعبة](/tag/اللعبة) تمثل بواسطة مجموعة مختصرة من الأحرف ASCII، مما يمكّن من معالجة فعالة بواسطة [النماذج اللغوية](/tag/[النماذج](/tag/النماذج)-اللغوية).

حدد GVGAI-[LLM](/tag/llm) مجموعة من المقاييس القابلة للتفسير، بما في ذلك نسبة الخطوات الهامة وكفاءة الخطوات والدرجة الإجمالية، لتقييم [سلوك النماذج](/tag/[سلوك](/tag/سلوك)-[النماذج](/tag/النماذج)). من خلال عمليات [تقييم](/tag/تقييم) صفرية [عبر](/tag/عبر) 118 لعبة مختلفة، [كشف](/tag/كشف) الباحثون عن [قيود](/tag/قيود) مستمرة لنماذج [LLM](/tag/llm) الحالية في [التفكير](/tag/التفكير) المكاني والتخطيط الأساسي. غالباً ما تظهر [النماذج](/tag/النماذج) [أخطاء](/tag/أخطاء) في [التفكير](/tag/التفكير) المكاني والمنطقي، مما يستدعي استخدام [تقنيات](/tag/تقنيات) [تحسين السلوك](/tag/[تحسين](/tag/تحسين)-السلوك) الهيكلي وتوطين الأفكار المكانية.

على الرغم من أن هذه التدخلات تؤدي إلى [تحسينات](/tag/تحسينات) جزئية، إلا أن المعيار لا يزال بعيداً جداً عن الحل. ويشكل GVGAI-[LLM](/tag/llm) [منصة](/tag/منصة) قابلة لإعادة الإنتاج تهدف إلى تعزيز [الأبحاث](/tag/الأبحاث) حول قدرات [نماذج](/tag/نماذج) اللغة، مع التركيز بشكل خاص على [سلوك الوكلاء](/tag/[سلوك](/tag/سلوك)-[الوكلاء](/tag/الوكلاء)) والتفكير المكاني. بالإضافة إلى ذلك، توفر قدرته على إنشاء [معايير](/tag/معايير) غير محدودة، سواء يدوياً أو بشكل إجرائي، إطاراً قابلاً للتوسع للتقييم المستمر على المدى الطويل.