في عالم الذكاء الاصطناعي، تطورت النماذج التفاعلية بشكل متسارع، ولكنها ما زالت تواجه تحديات مهمة تتعلق بالاستقرار والتفاعل. وفي هذا السياق، تم إطلاق WorldRoamBench، معيار مفتوح عالميًا يقيم استقرار النماذج على المدى الطويل في أربعة أبعاد رئيسية.

تأتي هذه المعيار مبتكرًا في تقييم الأداء من خلال:

1. **الإجراء (Action)**: تقديم مقياس للإجراء لكل إطار زمنى، مما يساعد في التغلب على تباين المقياس الدلالي بين النماذج ويكشف عن الأخطاء التي عادة ما تكون مخفية أثناء تقييم المسار.
2. **الرؤية (Vision)**: اعتماد مقياس قائم على الانجراف، مما يتيح التقاط الانهيار غير النمطي أثناء تسلسل الأحداث، والذي قد يتم تجاهله في المقارنات التقليدية بين بداية ونهاية.
3. **الفيزياء (Physics)**: استخدام تقييم مشروط على التحكم عبر الجوانب الفيزيائية والبصرية والاتساق الثلاثي الأبعاد، مما يمنح درجة معقولة تحت تنفيذ إجراءات دقيقة.
4. **الذاكرة (Memory)**: تقييم الذكاء من خلال بروتوكول غير مرتبط بالإجراء، مما يتيح استرجاع ذاكرة المشهد عبر إعادة بناء سحاب ثلاثي الأبعاد محلي.

يشمل هذا المعيار أكثر من 600 حالة اختبار متنوعة عبر مشاهد طبيعية وحضرية وداخلية، مما يضمن تفاعلًا مستمرًا على مدى 10-60 ثانية. ومع اختبار أكثر من 10 نماذج، اتضح أنه لا شيء منها يحقق جميع الأبعاد بشكل موثوق، حيث أن أفضلها حصل فقط على درجات متوسطة.

إنجازات WorldRoamBench تمثل خطوات أساسية نحو نماذج تفاعلية مستقرة، ترتكز على الفيزياء، وتحافظ على الذاكرة، وقابلة للتطبيق في العالم الحقيقي. هل أنتم متحمسون لتطورات الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات!