في عالم الذكاء الاصطناعي، يعد تحسين فهم الرؤية واللغة تحديًا كبيرًا، خاصةً عندما يتعلق الأمر بالتفاصيل الدقيقة للسمات البصرية والعلاقات المكانية. ومع أن النماذج الحالية، مثل CLIP، حققت تقدمًا ملحوظًا في التوافق العالمي، إلا أنها واجهت صعوبات في التعامل مع التخصيصات الدقيقة، خصوصًا في الإعدادات غير الناطقة بالإنجليزية.
للتغلب على هذه التحديات، تم تقديم نموذج FG-CLIP 2، المصمم خصيصًا للتوافق الدقيق بين الرؤية واللغة باللغتين الإنجليزية والصينية. يستخدم هذا النموذج إشرافًا غنيًا ودقيقًا، بما في ذلك مطابقة النص والمناطق ونمذجة التسميات الطويلة، بالإضافة إلى أهداف تمييز متعددة.
وقد تم تشغيله باستخدام مجموعة من البيانات الكبيرة باللغة الإنجليزية والصينية، بما في ذلك مجموعة بيانات جديدة تحتوي على 12 مليون سجل من المطابقات النصية الصينية. هذه المزايا تجعل FG-CLIP 2 يحقق أداءً قويًا للغاية في الفهم الثنائي اللغة.
كما تم تقديم معيار جديد لفهم الوسائط المتعددة في اللغة الصينية، والذي يتضمن استرجاع التسميات الطويلة وتصنيف الصناديق المحيطة، مما يساعد على تقييم دقيق لنموذج FG-CLIP 2.
أظهرت التجارب الواسعة على 29 مجموعة بيانات عبر 8 مهام أن FG-CLIP 2 يتفوق على الأساليب الحالية، محققًا نتائج عالمية في كلا اللغتين، مما يمهد الطريق لمزيد من الأبحاث في مجال توافق الرؤية واللغة.
نموذج FG-CLIP 2: ثورة في التوافق الدقيق بين الرؤية واللغة باللغتين الإنجليزية والصينية!
يقدم نموذج FG-CLIP 2 حلًا مبتكرًا لتحديات التوافق الدقيق بين المحتوى البصري والوصف اللغوي، ولأول مرة يدعم الفهم الثنائي اللغة بفعالية. هذا التطور يعد نقلة نوعية في مجال الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
