في عالم الذكاء الاصطناعي، تُعتبر [مجموعات البيانات](/tag/مجموعات-[البيانات](/tag/البيانات)) حجر الزاوية لتدريب [النماذج](/tag/النماذج) القوية. وقد تم إطلاق مشروع MONET، وهو [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) مفتوحة تحت رخصة Apache 2.0، تضم حوالي 104.9 مليون زوج من [الصور](/tag/الصور) والنصوص. تم جمع هذه [البيانات](/tag/البيانات) من 2.9 مليار زوج خام [عبر](/tag/عبر) مصادر متعددة، لتعزيز [الأبحاث](/tag/الأبحاث) المفتوحة والقابلة للتكرار في مجال [تحويل النص](/tag/[تحويل](/tag/تحويل)-النص) إلى [صورة](/tag/صورة) ([Text-to-Image](/tag/text-to-image)).

تتميز [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) [MONET](/tag/monet) بجودة عالية وتجميع مفصل، حيث تم [تصفية البيانات](/tag/[تصفية](/tag/تصفية)-[البيانات](/tag/البيانات)) وتنقيتها بعناية، مما يُسهل على [الباحثين](/tag/الباحثين) تجاوز عقبات [جمع البيانات](/tag/جمع-[البيانات](/tag/البيانات)). تم تطبيق عدة مراحل من الترشيح لضمان أن تكون المجموعة خالية من التكرار، بالإضافة إلى إعادة إعادة وصف المحتوى باستخدام [نماذج متعددة](/tag/[نماذج](/tag/نماذج)-متعددة) للرؤية واللغة ([Vision-Language Models](/tag/vision-language-models)).

كل [صورة](/tag/صورة) تأتي مع [تضمينات](/tag/تضمينات) مسبقة [الحساب](/tag/الحساب) وتوضيحات لتسريع استخدامها في [التطبيقات](/tag/التطبيقات) المختلفة. ولإثبات فعالية [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) MONET، تم [تدريب](/tag/تدريب) [نموذج](/tag/نموذج) ذو 4 مليارات معلمة (4B-parameter latent diffusion model) حصرياً على هذه المجموعة، مما حقق نتائج تنافسية في [تقييم](/tag/تقييم) GenEval وDPG.

يسهم مشروع [MONET](/tag/monet) في تخفيض العوائق أمام [الأبحاث](/tag/الأبحاث) الكبيرة والمعادة، مما يمكّن [الباحثين](/tag/الباحثين) من [تطوير](/tag/تطوير) [نماذج](/tag/نماذج) قدرة أعلى بتكاليف وأشكال أكثر فاعلية. هل تعتقد أن مثل هذه [المبادرات](/tag/المبادرات) ستساهم في تقدم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي)؟ شاركونا آرائكم في [التعليقات](/tag/التعليقات)!