تواجه أنظمة التعلم العميق تحديات متعددة عندما نكون أمام توزيعات طويلة الذيل (Long-tailed distributions) في بيانات غير متوازنة. هذه التحديات تنشأ نتيجة ميول النماذج نحو الفئات الأكثر شيوعًا. بينما حاولت طرق حديثة معالجة هذه المخاوف، إلا أنها كانت تقتصر في الغالب على المدخلات أحادية الوسيط.

في بحثنا الجديد، نقدم إطارًا مبتكرًا للتعرف على البيانات غير المتوازنة يعتمد على دمج مدخلات متعددة الوسائط (Multi-modal Inputs)، بحيث يستفيد من المعلومات التكميلية من مصادر بيانات متنوعة. يأخذ نهجنا عمارة متعددة الخبراء (Multi-expert architectures) ويعززها لتناسب البيئة متعددة الوسائط من خلال دمج بيانات هيتروجينية في تمثيل موحد، مستفيدًا من شبكات مخصصة تقدر مدى أهمية كل وسيلة.

تساعد أوزان موثوقية (Confidence-guided weights) الديناميكية في تعديل عملية الدمج، مما يضمن أن الوسائط الأكثر إفادة لها تأثير أكبر على القرار النهائي. لزيادة فعالية الأداء، قمنا بتصميم إجراءات تدريب واختبار متخصصة لاستيعاب تركيبات وسائط متنوعة، بما في ذلك الصور والبيانات الجدولية.

أظهرت التجارب المكثفة التي أُجريت على مجموعات بيانات مرجعية وحقيقية أن النهج المقترح لا يدمج المعلومات متعددة الوسائط بشكل فعال فحسب، بل يتفوق أيضًا على الطرق الأخرى في التعامل مع تحديات الفئات غير المتوازنة، مما يبرز قوته وقدرته على التعميم.