гаїровا است رؤية تكنولوجية جديدة: تطوير RAR لتحسين التعرف البصري باستخدام نماذج لغوية متعددة الوسائط

Q: ما هو موضوع مقال "гаїровا است رؤية تكنولوجية جديدة: تطوير RAR لتحسين التعرف البصري باستخدام نماذج لغوية متعددة الوسائط"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "гаїровا است رؤية تكنولوجية جديدة: تطوير RAR لتحسين التعرف البصري باستخدام نماذج لغوية متعددة الوسائط" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

في عالم الذكاء الاصطناعي، يواجه الباحثون تحديات كبيرة عند محاولة تحسين دقة الأنظمة في التعرف على الكائنات الدقيقة. واحدة من الأدوات الرائدة في هذا المجال هي تقنية CLIP (التدريب المسبق المتباين للغة والصورة)، والتي تعتمد على تعلم متباين من أزواج الصورة والنص الضوضائية. ورغم نجاحها في التعرف على مجموعة متنوعة من الفئات، فإن تركيزها على الروابط العامة بين المعلومات قد يقوض قدرتها في التمييز بين الفروق الدقيقة بين العناصر.

وعلى الجانب الآخر، تبرز نماذج اللغات الكبيرة المتعددة الوسائط (MLLMs) كأداة فاعلة في تصنيف الفئات الدقيقة، وذلك بفضل المعرفة الكبيرة المكتسبة من تدريبها على مجموعات بيانات واسعة على الإنترنت. لكن، ومع تزايد عدد الفئات، تتراجع فعالية تلك النماذج نتيجة لتعقيد المهمة والقيود المتعلقة بحجم نافذة السياق المحدودة.

لحل هذه المعضلة، يقدم الباحثون تقنية جديدة تحت مسمى RAR، أو ما يعرف باسترجاع وتصنيف تعزيز نماذج اللغات المتعددة الوسائط. تقوم هذه التقنية بإنشاء مستخرج متعدد الوسائط يعتمد على CLIP لتخزين الذاكرة الواضحة لفئات متعددة تتخطى حدود نافذة السياق المباشرة. أثناء عملية الاستنباط، يقوم RAR باسترجاع النتائج المشابهة من الذاكرة، ويستخدم نماذج اللغات الكبيرة لتصنيفها وتقديم التوقعات النهائية.

التقنية الجديدة لا تعالج فقط القيود الموجودة في التعرف الدقيق، بل تحافظ أيضًا على قاعدة المعرفة الشاملة للنموذج، مما يزيد من دقة الأداء في مجموعة متنوعة من مهام التعرف على الرؤية واللغة. وقد أظهرت النتائج تحسناً ملحوظاً في الأداء على خمسة معايير للتعرف البصري الدقيق، وعلى 11 مجموعة بيانات للتعرف على الصور في أوضاع قليلة البيانات، بالإضافة إلى مجموعتين من بيانات اكتشاف الكائنات تحت إعدادات التعرف بدون تدريب.

гаїровا است رؤية تكنولوجية جديدة: تطوير RAR لتحسين التعرف البصري باستخدام نماذج لغوية متعددة الوسائط

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة جديدة في عالم البرمجة: شركة Gitar الناشئة تؤمن الكود باستخدام الذكاء الاصطناعي!

جوجل تطلق ميزة الذكاء الشخصي جيمني في الهند: تجربة مخصصة في متناول يدك!

أوبن أيه آي تستحوذ على شركة هيرو لتكنولوجيا التمويل الشخصي: خطوة نحو التخطيط المالي الذكي!