تطوير ثوري: إطلاق vla-eval لتقييم نماذج الرؤية واللغة والعمل

تتزايد أهمية نماذج الرؤية واللغة والعمل (Vision-Language-Action Models) في الأبحاث الحالية، حيث تُستخدم هذه النماذج لتقييم الأداء عبر مجموعة متنوعة من المعايير. لكن العملية التقليدية لهذا التقييم قد تكون معقدة، إذ تتطلب حل التناقضات بين المعايير المختلفة وإعادة هندسة المعالجة غير الموثقة، مما يجعل تقييم الأداء الشامل مهمة شبه مستحيلة للعديد من الفرق البحثية.

هنا يأتي دور أداة **vla-eval**، وهي إطار عمل مفتوح المصدر تم تطويره لتبسيط هذه العمليات وتحقيق انسيابية في التقييم. من خلال استخدام بروتوكول WebSocket+msgpack مع عزل البيئة المعتمدة على Docker، يتمكن الباحثون من تنفيذ تقييمات دقيقة وفعّالة بسهولة. حيث يتم تكامل النماذج مرة واحدة عبر تطبيق طريقة predict()، بينما يتم تكامل المعايير عبر واجهة من أربع طرق، مما يجعل مصفوفة التقييم الكاملة تعمل بشكل تلقائي.

تدعم الأداة **14** معيار محاكاة و**6** خوادم نماذج، حيث يتيح **التقييم المتوازي** من خلال تقسيم الحلقات والتأثير على كفاءة الأداء، مما يحقق زيادة في السرعة تصل إلى **47 مرة**. هذه الأداة قادرة على إتمام **2,000** حلقة من LIBERO في حوالي **18 دقيقة**. لإثبات فعالية هذا الإطار، تمكن المطوّرون من إعادة إنتاج النتائج المنشورة عبر **6** قواعد أكواد VLA و**3** معايير، مع توثيق المشاكل التي لم يتم تسجيلها سابقًا.

أيضًا، تم إصدار قائمة متصدّرة لـ VLA تضم **657** نتيجة منشورة عبر **17** معيارًا. يمكن للجميع الاطلاع على الإطار، إعدادات التقييم، وجميع نتائج إعادة الإنتاج عبر الروابط التالية: [GitHub - vla-evaluation-harness](https://github.com/allenai/vla-evaluation-harness) و [Leaderboard](https://allenai.github.io/vla-evaluation-harness/leaderboard). هذا الابتكار يعد بمثابة نقطة تحول في عالم تقييم الذكاء الاصطناعي، مما يوفر للباحثين الأدوات اللازمة لتحسين نتائجهم بسهولة.

تطوير ثوري: إطلاق vla-eval لتقييم نماذج الرؤية واللغة والعمل

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

استمتع بتجربة تسوق ثورية مع Link: المحفظة الرقمية التي تعزز من قوة الذكاء الاصطناعي!

انطلق بمشاريع ألعابك الذكية: دمج NVIDIA DLSS 4.5 مع Unreal Engine 5!

كيف تبني وتدير وتوسع تدفقات عمل مبتكرة وعالية الجودة باستخدام ComfyUI