في عالم [البرمجة](/tag/البرمجة) المتسارع، تكتسب [وكالات البرمجة](/tag/[وكالات](/tag/وكالات)-[البرمجة](/tag/البرمجة)) (Coding Agents) أهمية كبيرة كمطورين لتطبيقات [البرمجيات](/tag/البرمجيات). لكن، كيف يمكن [قياس](/tag/قياس) كفاءتها بشكل دقيق عند [تحويل](/tag/تحويل) الأفكار إلى [تطبيقات](/tag/تطبيقات) قابلة للاستخدام؟ هنا يأتي دور WebGameBench، المعيار الثوري الذي يقيّم [أداء](/tag/أداء) هذه الوكالات من خلال [ألعاب الويب](/tag/[ألعاب](/tag/ألعاب)-الويب).

يهدف WebGameBench إلى [تحليل](/tag/تحليل) قدرة [الوكالات البرمجية](/tag/الوكالات-البرمجية) على [تحويل](/tag/تحويل) [مواصفات](/tag/مواصفات) [ألعاب الويب](/tag/[ألعاب](/tag/ألعاب)-الويب) المحددة إلى [ألعاب](/tag/ألعاب) متاحة [عبر](/tag/عبر) المتصفح. تتميز [الألعاب](/tag/الألعاب) المستخدمة في هذا المعيار بأنها تتطلب تنسيقًا عاليًا في التعامل مع المدخلات، والتخطيط المكاني، وتنفيذ القواعد، وما إلى ذلك.

تحتوي كل لعبة تم إنشاؤها باستخدام WebGameBench على [بروتوكول](/tag/بروتوكول) [نشر](/tag/نشر) موحد، مما يتيح لمقيم التشغيل [التفاعل](/tag/التفاعل) مع اللعبة في [متصفح](/tag/متصفح) حقيقي وتقييمها بناءً على ثلاث درجات: ممتاز (EXCELLENT)، قابل للاستخدام (USABLE)، وغير قابل للاستخدام (UNUSABLE).

للاطلاع على [دقة](/tag/دقة) التقييم، تم إجراء [مراجعات](/tag/مراجعات) بشرية على مجموعة فرعية من الألعاب، حيث أظهرت النتائج توافقًا عريضًا مع [معايير تقييم](/tag/[معايير](/tag/معايير)-[تقييم](/tag/تقييم)) اللعب.

من خلال اختبار 111 مهمة و12 [وكالة](/tag/وكالة) برمجية و14 تكوينًا تقييمًا، استطاع WebGameBench التمييز بين الأنظمة الحالية، حيث وصلت أفضل تكوين إلى معدل قابلية استخدام بلغ 76.9% ولكن بنسبة ممتازة تقدر بـ 20.2%. تبين هذه [الفجوة](/tag/الفجوة) أن الوصول إلى الحد الأدنى من قابلية اللعب لا يزال بعيدًا عن [تحقيق](/tag/تحقيق) جميع المتطلبات.

بهذا، يمثل WebGameBench المعيار الأول من نوعه الذي يقيّم تسليم [الألعاب](/tag/الألعاب) [عبر](/tag/عبر) المتصفح ويُحقق أقصى استفادة من مراجعة تجريبية مستقلة لتعزيز الجودة في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي).