في عالم الذكاء الاصطناعي، يواجه الباحثون [تحديات](/tag/تحديات) كبيرة عند محاولة [تحسين](/tag/تحسين) [دقة](/tag/دقة) الأنظمة في [التعرف](/tag/التعرف) على الكائنات الدقيقة. واحدة من [الأدوات](/tag/الأدوات) الرائدة في هذا المجال هي [تقنية CLIP](/tag/[تقنية](/tag/تقنية)-clip) ([التدريب المسبق](/tag/[التدريب](/tag/التدريب)-المسبق) المتباين للغة والصورة)، والتي تعتمد على [تعلم](/tag/تعلم) متباين من أزواج [الصورة](/tag/الصورة) والنص الضوضائية. ورغم نجاحها في [التعرف](/tag/التعرف) على مجموعة متنوعة من الفئات، فإن تركيزها على الروابط العامة بين [المعلومات](/tag/المعلومات) قد يقوض قدرتها في التمييز بين الفروق الدقيقة بين العناصر.
وعلى الجانب الآخر، تبرز [نماذج [اللغات](/tag/اللغات) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الكبيرة) [المتعددة الوسائط](/tag/المتعددة-الوسائط) ([MLLMs](/tag/mllms)) كأداة فاعلة في [تصنيف](/tag/تصنيف) الفئات الدقيقة، وذلك بفضل [المعرفة](/tag/المعرفة) الكبيرة المكتسبة من تدريبها على [مجموعات بيانات](/tag/مجموعات-[بيانات](/tag/بيانات)) واسعة على الإنترنت. لكن، ومع تزايد [عدد](/tag/عدد) الفئات، تتراجع فعالية تلك [النماذج](/tag/النماذج) نتيجة لتعقيد المهمة والقيود المتعلقة بحجم نافذة [السياق](/tag/السياق) المحدودة.
لحل هذه المعضلة، يقدم الباحثون [تقنية جديدة](/tag/[تقنية](/tag/تقنية)-جديدة) تحت مسمى RAR، أو ما يعرف باسترجاع وتصنيف تعزيز [نماذج اللغات](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)) [المتعددة الوسائط](/tag/المتعددة-الوسائط). تقوم هذه [التقنية](/tag/التقنية) بإنشاء مستخرج متعدد الوسائط يعتمد على [CLIP](/tag/clip) لتخزين [الذاكرة](/tag/الذاكرة) الواضحة لفئات متعددة تتخطى حدود نافذة [السياق](/tag/السياق) المباشرة. أثناء عملية الاستنباط، يقوم RAR باسترجاع النتائج المشابهة من الذاكرة، ويستخدم [نماذج [اللغات](/tag/اللغات) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الكبيرة) لتصنيفها وتقديم [التوقعات](/tag/التوقعات) النهائية.
[التقنية](/tag/التقنية) الجديدة لا تعالج فقط [القيود](/tag/القيود) الموجودة في [التعرف](/tag/التعرف) الدقيق، بل تحافظ أيضًا على قاعدة [المعرفة](/tag/المعرفة) الشاملة للنموذج، مما يزيد من [دقة](/tag/دقة) [الأداء](/tag/الأداء) في مجموعة متنوعة من مهام [التعرف](/tag/التعرف) على [الرؤية واللغة](/tag/[الرؤية](/tag/الرؤية)-واللغة). وقد أظهرت النتائج تحسناً ملحوظاً في [الأداء](/tag/الأداء) على خمسة [معايير](/tag/معايير) للتعرف البصري الدقيق، وعلى 11 [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) للتعرف على [الصور](/tag/الصور) في أوضاع قليلة البيانات، بالإضافة إلى مجموعتين من [بيانات](/tag/بيانات) [اكتشاف الكائنات](/tag/[اكتشاف](/tag/اكتشاف)-الكائنات) تحت إعدادات [التعرف](/tag/التعرف) بدون [تدريب](/tag/تدريب).
гаїровا است رؤية تكنولوجية جديدة: تطوير RAR لتحسين التعرف البصري باستخدام نماذج لغوية متعددة الوسائط
تقديم تقنية RAR الجديدة في الذكاء الاصطناعي تهدف إلى دمج قوة التعلم المتباين مع نماذج اللغات الضخمة، مما يحسن دقة التعرف على الفئات الدقيقة بصورة ملحوظة. التقنية تعرض تحسناً كبيراً في أداء الأنظمة على مجموعة متنوعة من مهام التعرف البصري.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
