شهدت السنوات الأخيرة تطورًا ملحوظًا في مجال الذكاء الاصطناعي، حيث أصبح إنتاج تضمينات نصية عالية الجودة يمثل تحديًا كبيرًا. وللأسف، يتمثل هذا التحدي في ثلاثة حواجز رئيسية: التكاليف الحسابية المرتفعة، والتحيز اللغوي الذي يتجاهل العديد من لغات العالم، ونقص الشفافية في النماذج المغلقة أو المفتوحة الوزن.

للتغلب على هذه الحواجز، تم تقديم ML-Embed، مجموعة من النماذج الشاملة والفعالة التي تعتمد على إطار عمل جديد يُعرف باسم التعلم ثلاثي الأبعاد (3D-ML). يهدف هذا الإطار إلى حل التحديات الحسابية من خلال كفاءة شاملة خلال دورة حياة النموذج.

يقدم التعلم الماتريوشكي (Matryoshka Representation Learning) فوائد تخزينية، بينما يوفر التعلم الطبقي الماتريوشكي (Matryoshka Layer Learning) عمقًا مرنًا في وقت الاستدلال. كما تم تقديم التعلم التضميني الماتريوشكي (Matryoshka Embedding Learning) لزيادة كفاءة المعلمات.

لمعالجة المشكلة اللغوية، قمنا بتجميع مجموعة ضخمة من البيانات متعددة اللغات، وتدريب مجموعة من النماذج التي تتراوح من 140 مليون إلى 8 مليار معلمة. ولتأكيد التزامنا بالشفافية، تم الإفراج عن جميع النماذج والبيانات والشيفرات.

تمت عملية تقييم شاملة على 430 مهمة، مما أظهر أن نماذجنا حققت سجلات جديدة في 9 من بين 17 معيارًا مُقيمًا، مع نتائج قوية بشكل خاص في اللغات ذات الموارد المحدودة. تقدم ML-Embed خريطة واضحة لبناء أنظمة ذكاء اصطناعي فعالة وعادلة على مستوى عالمي، مما يحقق توازنًا بين الكفاءة والتنوع اللغوي.