في عالم الذكاء الاصطناعي، يواجه الباحثون تحديات كبيرة عند محاولة تحسين دقة الأنظمة في التعرف على الكائنات الدقيقة. واحدة من الأدوات الرائدة في هذا المجال هي تقنية CLIP (التدريب المسبق المتباين للغة والصورة)، والتي تعتمد على تعلم متباين من أزواج الصورة والنص الضوضائية. ورغم نجاحها في التعرف على مجموعة متنوعة من الفئات، فإن تركيزها على الروابط العامة بين المعلومات قد يقوض قدرتها في التمييز بين الفروق الدقيقة بين العناصر.
وعلى الجانب الآخر، تبرز نماذج اللغات الكبيرة المتعددة الوسائط (MLLMs) كأداة فاعلة في تصنيف الفئات الدقيقة، وذلك بفضل المعرفة الكبيرة المكتسبة من تدريبها على مجموعات بيانات واسعة على الإنترنت. لكن، ومع تزايد عدد الفئات، تتراجع فعالية تلك النماذج نتيجة لتعقيد المهمة والقيود المتعلقة بحجم نافذة السياق المحدودة.
لحل هذه المعضلة، يقدم الباحثون تقنية جديدة تحت مسمى RAR، أو ما يعرف باسترجاع وتصنيف تعزيز نماذج اللغات المتعددة الوسائط. تقوم هذه التقنية بإنشاء مستخرج متعدد الوسائط يعتمد على CLIP لتخزين الذاكرة الواضحة لفئات متعددة تتخطى حدود نافذة السياق المباشرة. أثناء عملية الاستنباط، يقوم RAR باسترجاع النتائج المشابهة من الذاكرة، ويستخدم نماذج اللغات الكبيرة لتصنيفها وتقديم التوقعات النهائية.
التقنية الجديدة لا تعالج فقط القيود الموجودة في التعرف الدقيق، بل تحافظ أيضًا على قاعدة المعرفة الشاملة للنموذج، مما يزيد من دقة الأداء في مجموعة متنوعة من مهام التعرف على الرؤية واللغة. وقد أظهرت النتائج تحسناً ملحوظاً في الأداء على خمسة معايير للتعرف البصري الدقيق، وعلى 11 مجموعة بيانات للتعرف على الصور في أوضاع قليلة البيانات، بالإضافة إلى مجموعتين من بيانات اكتشاف الكائنات تحت إعدادات التعرف بدون تدريب.
гаїровا است رؤية تكنولوجية جديدة: تطوير RAR لتحسين التعرف البصري باستخدام نماذج لغوية متعددة الوسائط
تقديم تقنية RAR الجديدة في الذكاء الاصطناعي تهدف إلى دمج قوة التعلم المتباين مع نماذج اللغات الضخمة، مما يحسن دقة التعرف على الفئات الدقيقة بصورة ملحوظة. التقنية تعرض تحسناً كبيراً في أداء الأنظمة على مجموعة متنوعة من مهام التعرف البصري.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
