في السنوات الأخيرة، شهدت نماذج رؤية اللغة (Vision Language Models) تقدمًا سريعًا، ولكن ركائز تطوير هذه النماذج كانت تعتمد بشكل كبير على اللغة الإنجليزية، مما خلق عائقًا رئيسيًّا يتمثل في عدم وجود بيانات متعددة اللغات وموارد تقييم شاملة. في دراسة جديدة قدمت حلولًا مبتكرة لهذه التحديات، حيث قامت بتطوير مجموعة شاملة من الموارد التي تدعم التدريب والتقييم لنماذج رؤية اللغة عبر خمس لغات أوروبية: الإنجليزية، الفرنسية، الألمانية، الإيطالية، والإسبانية.

تعتمد هذه الدراسة على مفهوم تجديد-ترجمة الذي ينتج موارد عالية الجودة عبر دمج توليد بيانات مصنعة مع التحقق اليدوي، مما يعكس الجهود الضخمة المبذولة لتوفير بيانات فريدة. وقد تم تطوير مجموعة بيانات تدريبية تدعى "Multi-PixMo" من خلال تجديد أمثلة من مجموعات بيانات Pixmo الموجودة مسبقًا باستخدام نماذج ذات تراخيص تسمح بذلك، مثل PixMo-Cap وPixMo-AskModelAnything وCoSyn-400k.

من جهة التقييم، تم بناء مجموعة من المعايير متعددة اللغات من خلال ترجمة مجموعات بيانات إنجليزية مستخدمة على نطاق واسع (MMbench، ScienceQA، MME، POPE، AI2D). لقد تم تقييم جودة هذه الموارد من خلال التحليلات البشرية النوعية والكمية، مما أدى إلى تحقيق توافق بين المحللين. علاوة على ذلك، أجريت دراسات تفسيرية لإظهار تأثير البيانات متعددة اللغات مقارنة باستخدام اللغة الإنجليزية فقط في تدريب نماذج رؤية اللغة.

أظهرت التجارب التي شملت ثلاثة نماذج مختلفة أن استخدام أمثلة متعددة اللغات ومتعددة الوسائط في تدريب نماذج رؤية اللغة يحقق فوائد واضحة على المعايير غير الإنجليزية، مع تأثير إيجابي أيضًا على الأداء باللغة الإنجليزية.

ما يعنيه هذا البحث هو أننا الآن أبعد بكثير من قيود اللغة، حيث تمهد هذه الموارد الحديثة الطريق لتحقيق تطورات بارزة في عالم الذكاء الاصطناعي. هل أنت مستعد لاستكشاف تراث الذكاء الاصطناعي متعدد اللغات؟ شاركونا آراءكم في التعليقات.