في عالم الذكاء الاصطناعي، يواجه الباحثون [تحديات](/tag/تحديات) كبيرة عند محاولة [تحسين](/tag/تحسين) [دقة](/tag/دقة) الأنظمة في [التعرف](/tag/التعرف) على الكائنات الدقيقة. واحدة من [الأدوات](/tag/الأدوات) الرائدة في هذا المجال هي [تقنية CLIP](/tag/[تقنية](/tag/تقنية)-clip) ([التدريب المسبق](/tag/[التدريب](/tag/التدريب)-المسبق) المتباين للغة والصورة)، والتي تعتمد على [تعلم](/tag/تعلم) متباين من أزواج [الصورة](/tag/الصورة) والنص الضوضائية. ورغم نجاحها في [التعرف](/tag/التعرف) على مجموعة متنوعة من الفئات، فإن تركيزها على الروابط العامة بين [المعلومات](/tag/المعلومات) قد يقوض قدرتها في التمييز بين الفروق الدقيقة بين العناصر.

وعلى الجانب الآخر، تبرز [نماذج [اللغات](/tag/اللغات) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الكبيرة) [المتعددة الوسائط](/tag/المتعددة-الوسائط) ([MLLMs](/tag/mllms)) كأداة فاعلة في [تصنيف](/tag/تصنيف) الفئات الدقيقة، وذلك بفضل [المعرفة](/tag/المعرفة) الكبيرة المكتسبة من تدريبها على [مجموعات بيانات](/tag/مجموعات-[بيانات](/tag/بيانات)) واسعة على الإنترنت. لكن، ومع تزايد [عدد](/tag/عدد) الفئات، تتراجع فعالية تلك [النماذج](/tag/النماذج) نتيجة لتعقيد المهمة والقيود المتعلقة بحجم نافذة [السياق](/tag/السياق) المحدودة.

لحل هذه المعضلة، يقدم الباحثون [تقنية جديدة](/tag/[تقنية](/tag/تقنية)-جديدة) تحت مسمى RAR، أو ما يعرف باسترجاع وتصنيف تعزيز [نماذج اللغات](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)) [المتعددة الوسائط](/tag/المتعددة-الوسائط). تقوم هذه [التقنية](/tag/التقنية) بإنشاء مستخرج متعدد الوسائط يعتمد على [CLIP](/tag/clip) لتخزين [الذاكرة](/tag/الذاكرة) الواضحة لفئات متعددة تتخطى حدود نافذة [السياق](/tag/السياق) المباشرة. أثناء عملية الاستنباط، يقوم RAR باسترجاع النتائج المشابهة من الذاكرة، ويستخدم [نماذج [اللغات](/tag/اللغات) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الكبيرة) لتصنيفها وتقديم [التوقعات](/tag/التوقعات) النهائية.

[التقنية](/tag/التقنية) الجديدة لا تعالج فقط [القيود](/tag/القيود) الموجودة في [التعرف](/tag/التعرف) الدقيق، بل تحافظ أيضًا على قاعدة [المعرفة](/tag/المعرفة) الشاملة للنموذج، مما يزيد من [دقة](/tag/دقة) [الأداء](/tag/الأداء) في مجموعة متنوعة من مهام [التعرف](/tag/التعرف) على [الرؤية واللغة](/tag/[الرؤية](/tag/الرؤية)-واللغة). وقد أظهرت النتائج تحسناً ملحوظاً في [الأداء](/tag/الأداء) على خمسة [معايير](/tag/معايير) للتعرف البصري الدقيق، وعلى 11 [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) للتعرف على [الصور](/tag/الصور) في أوضاع قليلة البيانات، بالإضافة إلى مجموعتين من [بيانات](/tag/بيانات) [اكتشاف الكائنات](/tag/[اكتشاف](/tag/اكتشاف)-الكائنات) تحت إعدادات [التعرف](/tag/التعرف) بدون [تدريب](/tag/تدريب).