مؤخراً، أحدث مجال الذكاء الاصطناعي نقلة نوعية في كيفية تدريب نماذج الرؤية واللغة (Vision-Language Models) من خلال الابتكار في تصنيع البيانات. يتطلب تدريب هذه النماذج عادةً مجموعات كبيرة وعالية الجودة من أزواج الصور والنصوص، وهو ما يعدّ عملية مكلفة ومعقدة. ولكن، ماذا لو كان بالإمكان توليد بيانات تدريب متعددة الأنماط (Multimodal) بالكامل انطلاقاً من النصوص؟

في محاولة للتغلب على معوقات جمع البيانات، طور الباحثون إطار عمل ثلاثي المراحل يتيح لهم إنشاء مجموعتين من البيانات: Unicorn-1.2M وUnicorn-471K-Instruction. تبدأ المرحلة الأولى بتوليد بيانات تسميات متنوعة، حيث تم إنتاج 1.2 مليون عنوان ذو دلالة من خلال توسيع أجندة تسميات محدودة عبر استخدام نماذج اللغات الضخمة (Large Language Models).

أما في المرحلة الثانية، فإنهم يقومون بمعالجة 471 ألف عنوان إلى مهام توجيه متعددة المراحل، مما يدعم عمليات التفكير المعقد. ثم تأتي المرحلة الأخيرة حيث يتم تحويل هذه التمثيلات النصية إلى تمثيلات بصرية، مما يؤدي إلى إنشاء تمثيلات صور اصطناعية متنوعة.

بهذا الإطار الثلاثي، يتمكن الباحثون من بناء Unicorn-1.2M للتدريب المسبق وUnicorn-471K-Instruction لدعم توجيه التعليم، دون الاعتماد على الصور الحقيقية. ومع ذلك، يقدم هذا الابتكار حلاً فعالاً من حيث التكلفة وقابلية التوسع في تدريب النماذج، بينما يحافظ على جودة البيانات وتنوعها. هذا التطور يعد خطوة نحو مستقبل أكثر إشراقاً في عالم النماذج متعددة الأنماط!

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.