تتميز نماذج التفكير المتعددة الوسائط (Multimodal Large Reasoning Models) بقدرتها الفائقة على التعامل مع المهام المعقدة التي تجمع بين الرؤية واللغة، حيث تُظهر قدرة استثنائية على الفهم وإنتاج المحتوى. لكن، على الرغم من هذه المزايا، فإن هذه النماذج لا تزال تعاني من مشكلة الهلاوس التي تؤثر على دقتها.

للتعامل مع هذه المشكلة، تم استخدام طرق تدريب تعتمد على تحسين تفضيلات الاستجابة المباشرة (Direct Preference Optimization - DPO) التي تعتبر طريقة معروفة. لكن، تبين أن هذه الطرق تؤدي إلى نتائج مشابهة لتلك الناتجة عن تحسين الإجابات فقط، مما يشير إلى أن التركيز كان على تفضيل الإجابات بدلاً من استغلال الإشراف على سلسلة التفكير بشكل كافٍ.

للتغلب على هذه التحديات، جاءت الدراسة الجديدة لتقدم مفهوم تحسين التفضيل القائم على التفكير (Reasoning-Conditioned Direct Preference Optimization - RC-DPO) الذي يهدف إلى تحسين دقة التفكير. حيث يتم نمذجة سلسلة التفكير كشرط لتوليد الإجابة، مما يساعد على تحقيق توازن أفضل بين تفضيلات الإجابات في حالات مختلفة من سلسلة التفكير.

كما تم تقديم استراتيجية جديدة لتوليد بيانات تفضيل معززة للتفكير تعتمد على البحث في الأشجار (Monte Carlo Tree Search) لاكتشاف سلاسل تفكير مرئية ومتماسكة من الناحية المنطقية. هذه الاستراتيجية تعمل على إنتاج عينات إيجابية بينما تقوم بتنقيح عينات سلبية.

أظهرت التجارب الواسعة عبر نماذج ومعايير مختلفة أن طريقة RC-DPO تُسهم بفعالية في تقليل الهلاوس وتحسين موثوقية العمليات الاستدلالية المتعددة الوسائط. يبدو أن هذا الابتكار يفتح آفاقًا جديدة في طريق تطوير نماذج الذكاء الاصطناعي. ما رأيكم في هذه التطورات المثيرة؟ شاركونا في التعليقات!