في عالم الذكاء الاصطناعي، تعتبر نماذج الرؤية عن بُعد (Remote Sensing) من الأدوات الحيوية لفهم البيئة وتحليل البيانات. ومع تقدم هذه التكنولوجيا، كان التركيز غالباً على الصور بتقنية RGB، مما ترك المجال للأشعة تحت الحمراء (Infrared) كمصدر لمعلومات غنية وثمينة دون استكشاف كافٍ.
تأتي FusionRS كخطوة رائدة في هذا المجال، حيث تمثل أول مجموعة بيانات كبيرة تم تطويرها خصيصاً للجمع بين الصور باستخدام تقنيتي RGB والأشعة تحت الحمراء ونصوص توضيحية متعلقة بها. هذا الابتكار يهدف إلى تعزيز التعليمات البصرية اللغوية من خلال توظيف المعلومات الفريدة التي توفرها صور الأشعة تحت الحمراء، والتي تتضمن تفاصيل مثل بنية الحرارة وحدود الأجسام، مما يسهم في توسيع آفاق التعلم.
تم بناء مجموعة بيانات FusionRS من خلال ترجمة مجموعة متنوعة من الصور العامة بتقنية RGB إلى نظيراتها بأسلوب الأشعة تحت الحمراء، مما أدى إلى تكوين أزواج متطابقة من الصور. كل زوج يرتبط بتعليقات مشهد تقليدية إلى جانب تعليقات تستند إلى الأشعة تحت الحمراء، تصف الخصائص البصرية الخاصة بالأشعة تحت الحمراء بينما تبقي على المعنى الدلالي.
بفضل FusionRS، تم تدريب نماذج بناءة تعتمد على نمط CLIP لتوحيد البيانات بين RGB والأشعة تحت الحمراء، وبعدها تم إجراء تحسينات على نماذج اللغة البصرية (VLMs) لتوليد تعليقات ثنائية النمط. أكدت التجارب أن FusionRS تعزز من قدرة مطابقة البيانات بين RGB والأشعة تحت الحمراء، بينما تحسن من استرداد النصوص من الأشعة تحت الحمراء والتعليقات الثنائية النمط بشكل هائل مقارنةً بالبيانات التي تقتصر على RGB.
أثبتت الدراسات الاستباقية أن التعليقات الخاصة بالأشعة تحت الحمراء تعتبر حيوية لتعزيز المطابقة بين الأشعة تحت الحمراء واللغة، مما يشدد على أهمية الإشراف النصي الخاص بالنمط لتسهيل تعلم التمثيلات البصرية اللغوية عن بُعد.
إن الاعتماد على FusionRS يمكن أن يفتح آفاقاً جديدة للبحث والتطوير في مجال الرؤية عن بُعد، فكيف ستؤثر هذه البيانات على مستقبل هذا المجال؟ شاركونا آراءكم في التعليقات!
FusionRS: مجموعة بيانات ثورية تجمع بين الرؤية عن بُعد بتقنيتي RGB والأشعة تحت الحمراء لتمكين نماذج اللغة متعددة الأنماط!
تقدم FusionRS مجموعة بيانات جديدة تجمع بين صور الأشعة تحت الحمراء وRGB، مما يعزز فهم نماذج الرؤية عن بُعد. تجمع المجموعة البيانات النصية لتعزيز التعلم البصري اللغوي بشكل مبتكر.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
