أعلنت مجموعة من [الباحثين](/tag/الباحثين) عن إطلاق معيار GVGAI-LLM، وهو معيار مبتكر يهدف إلى [تقييم](/tag/تقييم) قدرات [النماذج اللغوية الكبيرة](/tag/[النماذج](/tag/النماذج)-اللغوية-الكبيرة) (Large Language [Models](/tag/models)) في [التفكير](/tag/التفكير) وحل المشكلات من خلال مجموعة متنوعة من [ألعاب](/tag/ألعاب) [الفيديو](/tag/الفيديو). يعتمد GVGAI-[LLM](/tag/llm) على [إطار العمل](/tag/إطار-العمل) المعروف بالذكاء الاصطناعي في [الألعاب](/tag/الألعاب) [الفيديو](/tag/الفيديو) (General Video Game [AI](/tag/ai)) ويحتوي على مجموعة غنية من [الألعاب](/tag/الألعاب) بأسلوب الأركيد مصممة خصيصاً لاختبار [مهارات](/tag/مهارات) [النماذج](/tag/النماذج) في مهام تختلف عن المستويات الحالية لاختبار [أداء](/tag/أداء) [نماذج](/tag/نماذج) [LLM](/tag/llm).
تم [تصميم](/tag/تصميم) المعيار باستخدام [لغة](/tag/لغة) وصف لألعاب الفيديو، مما يسهل إنشاء [ألعاب](/tag/ألعاب) جديدة بسرعة، بما في ذلك القواعد والمستويات، مما يساهم في تقليل الإفراط في التكيّف على مر الزمن. كل حالة من حالات [اللعبة](/tag/اللعبة) تمثل بواسطة مجموعة مختصرة من الأحرف ASCII، مما يمكّن من معالجة فعالة بواسطة [النماذج اللغوية](/tag/[النماذج](/tag/النماذج)-اللغوية).
حدد GVGAI-[LLM](/tag/llm) مجموعة من المقاييس القابلة للتفسير، بما في ذلك نسبة الخطوات الهامة وكفاءة الخطوات والدرجة الإجمالية، لتقييم [سلوك النماذج](/tag/[سلوك](/tag/سلوك)-[النماذج](/tag/النماذج)). من خلال عمليات [تقييم](/tag/تقييم) صفرية [عبر](/tag/عبر) 118 لعبة مختلفة، [كشف](/tag/كشف) الباحثون عن [قيود](/tag/قيود) مستمرة لنماذج [LLM](/tag/llm) الحالية في [التفكير](/tag/التفكير) المكاني والتخطيط الأساسي. غالباً ما تظهر [النماذج](/tag/النماذج) [أخطاء](/tag/أخطاء) في [التفكير](/tag/التفكير) المكاني والمنطقي، مما يستدعي استخدام [تقنيات](/tag/تقنيات) [تحسين السلوك](/tag/[تحسين](/tag/تحسين)-السلوك) الهيكلي وتوطين الأفكار المكانية.
على الرغم من أن هذه التدخلات تؤدي إلى [تحسينات](/tag/تحسينات) جزئية، إلا أن المعيار لا يزال بعيداً جداً عن الحل. ويشكل GVGAI-[LLM](/tag/llm) [منصة](/tag/منصة) قابلة لإعادة الإنتاج تهدف إلى تعزيز [الأبحاث](/tag/الأبحاث) حول قدرات [نماذج](/tag/نماذج) اللغة، مع التركيز بشكل خاص على [سلوك الوكلاء](/tag/[سلوك](/tag/سلوك)-[الوكلاء](/tag/الوكلاء)) والتفكير المكاني. بالإضافة إلى ذلك، توفر قدرته على إنشاء [معايير](/tag/معايير) غير محدودة، سواء يدوياً أو بشكل إجرائي، إطاراً قابلاً للتوسع للتقييم المستمر على المدى الطويل.
GVGAI-LLM: ثورة جديدة في تقييم نماذج اللغة الكبيرة من خلال الألعاب الفيديو!
تم إطلاق GVGAI-LLM، معيار جديد يهدف إلى قياس قدرات نماذج اللغة الكبيرة (LLMs) في التفكير وحل المشكلات عبر مجموعة متنوعة من ألعاب الفيديو. هذا المعيار يقدم تحديات جديدة تكشف عن نقاط ضعف نماذج LLM الحالية في السلوك المكاني والتخطيط الأساسي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←# نموذج لغة# ألعاب الفيديو# اختبارات الذكاء الاصطناعي# التعلم الآلي# GVGAI-LLM# نماذج لغة كبيرة# ألعاب فيديو# تقييم الذكاء الاصطناعي# تفكير مكاني
جاري تحميل التفاعلات...
