في عصر الذكاء الاصطناعي، أصبح التعلم متعدد الأنماط (Multimodal Learning) أحد الركائز الأساسية لتحسين أداء النماذج. إلا أن هذا النوع من التعلم يواجه تحديًا رئيسيًا يُعرف بعدم التوازن بين الأنماط، حيث تهيمن الأنماط التي تتقارب بشكل أسرع على عملية التحسين، مما يؤدي إلى ضعف تدريب الأنماط الأخرى.

في هذا السياق، تطرح الدراسات السابقة أساليب متنوعة للتخفيف من هذه المشكلة، مثل تعزيز الأنماط الضعيفة أو تعديل تدرجات التحسين. ولكن، يُعتبر هذا النوع من الاستراتيجيات تعويضًا عن الفجوات في معدلات التحسين، وغالبًا ما يؤدي إلى تقليل قدرة الأنماط الأقوى على التحسين، دون تحليل الأسباب الكامنة وراء ظهور هذه الفجوات على مستوى الأنماط.

من خلال استنادنا إلى رؤى نظرية وملاحظات تجريبية، نفهم أن هذه الفجوة في وتيرة التعلم تنشأ من اختلافات في صعوبة التوصيل بين مساحات الميزات الخاصة بالأنماط ومساحة التسمية المشتركة.

لمعالجة هذه القضية، نقدم مفهوم إعادة تشكيل تسمية متعدد الأنماط المتوازن (Balanced Multimodal Label Reshaping - BMLR)، والذي يمثل الطريقة الأولى التي تعزز التوازن بين الأنماط من جانب التصميم الخاص بالتسمية. يقوم BMLR بإعادة تشكيل مساحة التسمية بين الأنماط لتحقيق توازن في صعوبة التوصيل من أجل تعزيز التفاعل بين الأنماط وضخ معلومات أقوى بين الفئات المختلفة في كل نمط.

تظهر التجارب الواسعة التي أُجريت على العديد من التصاميم المعمارية أن BMLR يُحسن بشكل متسق الأداء المتعدد الأنماط ويُظهر توافقًا قويًا مع تصميمات النماذج المتنوعة. من المقرر أن يتم إصدار الكود المصدر قريبًا، مما يسمح للمطورين والباحثين باستكشاف هذه الطريقة الجديدة ودمجها في مشاريعهم المستقبلية.