في عالم الذكاء الاصطناعي، تمثل نماذج اللغات الضخمة (LLMs) قفزة نوعية في القدرات الإدراكية. لكن يبقى سؤال مهم: هل تتفوق هذه النماذج في التفكير الاستراتيجي، أم أنها تعتد على التعرف على الأنماط فقط؟
لإجابة هذا السؤال، تم تقديم ChessArena، منصة تستند إلى لعبة الشطرنج لتقييم قدرات نماذج الذكاء الاصطناعي. تحاكي ChessArena بيئة تنافسية حيث تلعب نماذج (LLMs) ضد بعضها البعض ضمن أربعة أنماط لعب مختلفة. تتطلب لعبة الشطرنج مستوى عالٍ من التفكير الاستراتيجي، والقدرة على الالتزام بقواعد دقيقة، بالإضافة إلى تتبع حالات اللعبة المعقدة.
لقد قمنا بتقييم 13 نموذجًا من LLMs خلال أكثر من 800 مباراة، مختبرين فهم الأساسيات، واختيار الحركات، وحل الألغاز. تكشف النتائج عن عيوب واضحة، حيث لم يتمكن أي نموذج من هزيمة لاعب بمستوى بشري مثل Maia-1100، بل وبعض النماذج فقدت أمام اللعب العشوائي.
على الجانب الإيجابي، نقدم خطاً أساسياً قوياً من خلال Qwen3-8B، حيث يظهر تحسنًا ملحوظًا في الأداء، مما يجعله قريبًا من نماذج التفكير المتطورة الكبيرة. توفر ChessArena الفرصة لاستكشاف إمكانيات الذكاء الاصطناعي في التفكير الاستراتيجي، وهي خطوة هامة نحو تحسين الأداء في مجالات متعددة من الذكاء الاصطناعي.
اكتشاف قدرات التفكير الاستراتيجي: ChessArena كمنصة لتقييم نماذج الذكاء الاصطناعي
تقدم ChessArena اختبارًا فريدًا لتقييم قدرات التفكير الاستراتيجي لنماذج اللغات الضخمة (LLMs). تظهر النتائج النقاط التي تحتاج إلى تحسين في مستوى الأداء مقارنة باللاعبين البشريين.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
