في عالم الذكاء الاصطناعي، تلعب نماذج المكافأة متعددة الوسائط (MRMs) دورًا حاسمًا في تحسين تفاعل نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) مع تفضيلات البشر. لكن تدريب نموذج فعّال يتطلب وجود بيانات تفضيل متعددة الوسائط عالية الجودة. ومع ذلك، تواجه مجموعات البيانات الحالية عدة تحديات رئيسية تشمل ضعف الدقة في قوة التفضيل، تحيز نمط النص، والضعف في إشارات التفضيل.

علاوة على ذلك، تعاني مجموعات البيانات المفتوحة المصدر الموجودة من مستوى عالٍ من الضوضاء، مما يجعل عملية تحسين جودة البيانات بشكل فعّال وقابل للتوسع أمرًا بالغ الصعوبة. ولحلّ هذه المشكلات، تم اقتراح نموذج DT2IT-MRM، والذي يجمع بين أنبوب بناء التفضيلات المُفَضَّلة، إعادة تشكيل جديدة لبيانات النص إلى صورة (text-to-image) ، وإطار تدريب تكراري (Iterative Training Framework) يقوم بتنقيح مجموعات البيانات الحالية.

أظهرت نتائج التجارب أن نموذج DT2IT-MRM يحقق أداءً قياسيًا جديدًا في ثلاث معايير رئيسية: VL-RewardBench، Multimodal RewardBench، وMM-RLHF-RewardBench. هذا الإنجاز يمثل خطوة كبيرة تقدم إمكانية تعزيز التطبيقات المتعددة والمتعلقة بالتفاعل الذكي مع المستخدمين. هل أنتم مستعدون لمتابعة كيفية تجديد نماذج المكافأة في الذكاء الاصطناعي؟