أعلنت شركة NVIDIA عن إطلاق Cosmos 3، الذي يُعتبر طفرة في مجال نماذج الذكاء الاصطناعي. يتميز هذا النموذج بقدرته الفائقة على معالجة وتوليد النصوص، الصور، الفيديوهات، والمقاطع الصوتية بشكل متكامل. يعتمد Cosmos 3 على هيكلية متميزة تُعرف بمزيج المحولات (mixture-of-transformers) التي تسمح بتكوينات إدخال وإخراج مرنة للغاية، مما يساعد في دمج الخصائص الأساسية للذكاء الاصطناعي المادي (Physical AI).

يسمح Cosmos 3 بتحقيق ما لا يمكن تحقيقه في السابق، حيث يدمج بين نماذج الرؤية واللغة، ومولدات الفيديو، والمحاكيات العالمية، ونماذج العمل، ضمن إطار عمل موحد. وفقًا لتقييماتنا، أثبت Cosmos 3 تفوقه كأفضل نموذج مفتوح المصدر لنقل النص إلى صورة (Text-to-Image) ونقل الصورة إلى فيديو (Image-to-Video)، وأيضًا كأفضل نموذج سياسة (policy model) حسب تقييم RoboArena.

للتوسع في أبحاث الذكاء الاصطناعي، تقدم NVIDIA كود Cosmos 3، ونقاط النموذج، ومجموعات البيانات الاصطناعية المنسقة تحت رخصة OpenMDW-1.1. يمكن الوصول إلى المزيد من المعلومات من خلال الروابط التي تم توفيرها. يعد Cosmos 3 بمثابة العمود الفقري القابل للتوسع والمتعدد الاستخدامات للوكالات المتمكنة، وهو في صميم التطورات المستدامة في عالم الذكاء الاصطناعي.