في سعيها لتحقيق التفاعل المتوازن بين النصوص والصور، شهدت نماذج اللغات متعددة الوسائط (MLLMs) تطورًا ملحوظًا عبر تطبيق أهداف جديدة في عملية التعلم. إلا أن العديد من هذه النماذج تواجه تحديات جسيمة تتمثل في تقديم استجابات غير متناسقة مع مدخلاتها البصرية، مما يشير إلى عدم استغلال فعال للأدلة البصرية خلال عملية الاستدلال.

عادةً ما يعتمد الإطار الحالي للتدريب على المرحلة الأولى التي تشمل التدريب المسبق على نطاق واسع باستخدام تسميات مبسطة، تليها عمليات تحسين خاضعة للإشراف والتعلم المعزز لتسهيل اتباع التعليمات والتفكير المعقد. ومع ذلك، فإن هذا التدريب المسبق غالبًا ما يوفر توجيهات بصرية ضعيفة، مما يجعل النماذج تركز فقط على العناصر البارزة وتغفل الأدلة المرئية الدقيقة.

في هذا السياق، قدم الباحثون مفهوم 'التوافق البصري المسبق' (Visual Evidence Pre-Alignment) كمرحلة وسيطة بين التدريب المسبق وعمليات ما بعد التدريب، باعتماد أهداف جديدة مدفوعة بالكفاءة. باستخدام طريقة تحسين السياسات النسبية الجماعية (Group Relative Policy Optimization - GRPO)، يعملون على تحسين أوصاف الأدلة البصرية المرتبطة بالأسئلة.

أظهرت التجارب الشاملة التي أُجريت عبر معايير متنوعة أن 'التوافق البصري المسبق' يعزز أداء النماذج بشكل متواصل في تقييمات تتطلب مستوى عالٍ من الدقة البصرية. والتحليل الإضافي يظهر أن هذا التحسين يأتي من تعزيز الأساس البصري القابل للنقل، وليس من التدريب الخاص بالمهمة الإضافية.

من المهم جدًا للباحثين والمطورين في مجال الذكاء الاصطناعي متابعة هذه التطورات عن كثب، لما لها من تأثيرات عميقة على كيفية دمج المعلومات النصية والمرئية في التطبيقات المستقبلية.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.