في الآونة الأخيرة، شهدت مجالات التعلم المتعدد الوسائط (Multimodal Learning) تقدماً ملحوظاً، حيث تم تحفيز دمج أنماط مساعدة مثل النصوص أو الصور في توقعات البيانات الزمنية (Time Series Forecasting). ولكن، على الرغم من تلك الجهود، لم تحقق معظم الطرق الحالية نتائج مرضية، إذ تحسّن الأداء في بعض المجموعات البيانية فقط، أو تعتمد على تصميمات محددة للهيكل تقلل من قدرة النماذج على التعميم.
في هذا البحث، نوضح أن النماذج المتعددة الوسائط التي تعتمد استراتيجيات دمج بسيطة، مثل الجمع البسيط أو التراص، غالباً ما تحقق أداءً أقل من النماذج الأحادية للبيانات الزمنية، وذلك يعود إلى دمج المعلومات غير ذات الصلة بشكل غير متحكم. تحفيزاً لهذه الملاحظة، نستكشف أساليب دمج مقيدة تهدف إلى مراقبة هذا الدمج، ونعثر على أنها تتفوق باستمرار على طرق الدمج البسيطة.
كما نقترح أسلوب "محول الدمج المقيد" (Controlled Fusion Adapter - CFA)، وهو وسيلة بسيطة للتوصيل تسمح بالتفاعلات عبر الأنماط المتعددة بشكل محكم دون تعديل البنية الأساسية للبيانات الزمنية. يدمج هذا الأسلوب المعلومات النصية ذات الصلة فقط التي تتماشى مع ديناميكيات الوقت، حيث يستخدم محولات منخفضة الرتبة لتصفية المعلومات النصية غير ذات الصلة قبل دمجها في التمثيلات الزمنية.
قمنا بإجراء أكثر من 20,000 تجربة عبر مجموعات بيانات ونماذج نصية مختلفة، مما يبرز فعالية هذه الأساليب المقيدة في الدمج. يمكن الاطلاع على الشيفرة المصدرية للمجموعة من خلال الرابط: https://github.com/seunghan96/cfa.
إعادة تفكير في دمج الأنماط المتعددة للبيانات الزمنية: الحاجة لدمج محدود للنصوص
تسعى الأبحاث الحديثة نحو تحسين توقعات البيانات الزمنية من خلال دمج أنماط متعددة مثل النصوص والرؤية. تقدم الدراسة أساليب دمج جديدة تتحكم في كيفية غير المنضبط لمعلومات النصوص، مما يؤدي لتحسين ملحوظ في الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
