تتزايد أهمية نماذج الرؤية واللغة والعمل (Vision-Language-Action Models) في الأبحاث الحالية، حيث تُستخدم هذه النماذج لتقييم الأداء عبر مجموعة متنوعة من المعايير. لكن العملية التقليدية لهذا التقييم قد تكون معقدة، إذ تتطلب حل التناقضات بين المعايير المختلفة وإعادة هندسة المعالجة غير الموثقة، مما يجعل تقييم الأداء الشامل مهمة شبه مستحيلة للعديد من الفرق البحثية.
هنا يأتي دور أداة **vla-eval**، وهي إطار عمل مفتوح المصدر تم تطويره لتبسيط هذه العمليات وتحقيق انسيابية في التقييم. من خلال استخدام بروتوكول WebSocket+msgpack مع عزل البيئة المعتمدة على Docker، يتمكن الباحثون من تنفيذ تقييمات دقيقة وفعّالة بسهولة. حيث يتم تكامل النماذج مرة واحدة عبر تطبيق طريقة predict()، بينما يتم تكامل المعايير عبر واجهة من أربع طرق، مما يجعل مصفوفة التقييم الكاملة تعمل بشكل تلقائي.
تدعم الأداة **14** معيار محاكاة و**6** خوادم نماذج، حيث يتيح **التقييم المتوازي** من خلال تقسيم الحلقات والتأثير على كفاءة الأداء، مما يحقق زيادة في السرعة تصل إلى **47 مرة**. هذه الأداة قادرة على إتمام **2,000** حلقة من LIBERO في حوالي **18 دقيقة**. لإثبات فعالية هذا الإطار، تمكن المطوّرون من إعادة إنتاج النتائج المنشورة عبر **6** قواعد أكواد VLA و**3** معايير، مع توثيق المشاكل التي لم يتم تسجيلها سابقًا.
أيضًا، تم إصدار قائمة متصدّرة لـ VLA تضم **657** نتيجة منشورة عبر **17** معيارًا. يمكن للجميع الاطلاع على الإطار، إعدادات التقييم، وجميع نتائج إعادة الإنتاج عبر الروابط التالية: [GitHub - vla-evaluation-harness](https://github.com/allenai/vla-evaluation-harness) و [Leaderboard](https://allenai.github.io/vla-evaluation-harness/leaderboard). هذا الابتكار يعد بمثابة نقطة تحول في عالم تقييم الذكاء الاصطناعي، مما يوفر للباحثين الأدوات اللازمة لتحسين نتائجهم بسهولة.
تطوير ثوري: إطلاق vla-eval لتقييم نماذج الرؤية واللغة والعمل
تعرفوا على vla-eval، الأداة الجديدة التي تسهل تقييم نماذج الرؤية واللغة والعمل (VLA) عبر العديد من المعايير. تعد هذه الأداة مفتوحة المصدر خطوة مبتكرة نحو تحسين كفاءة عمليات التقييم في الأبحاث الحديثة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
