تواجه النماذج متعددة النماذج (Multimodal Models) تحديات خطيرة تتمثل في التفكير السطحي والتي تؤدي إلى أخطاء ناتجة عن عمليات تفكير غير مكتملة أو غير متسقة. للحد من هذه القيود، يقدم الباحثون نموذج SVSR، الذي يجمع بشكل فعلي بين التحقق الذاتي (Self-Verification) والتصحيح الذاتي (Self-Rectification) ضمن مسار التفكير في النموذج، مما يُحسن بشكل ملحوظ من القوة والموثوقية في فهم الصور المعقدة ومهام التفكير متعدد النماذج.

تستند SVSR إلى نموذج تدريبي جديد يتكون من ثلاث مراحل. في المرحلة الأولى، يتم إنشاء مجموعة بيانات مفضلة موحدة عالية الجودة من خلال تحسين آثار التفكير المستمد من نماذج الرؤية واللغة المدربة مسبقاً، مع دمج التفكير الأمامي والخلفي لدعم الإشارات الذاتية. في المرحلة الثانية، يتم إجراء تدريب إشرافي بارد على هذه المجموعة من البيانات لتعلم سلوكيات التفكير المنظم ومتعدد الخطوات. وفي المرحلة الثالثة، تُستخدم عملية تحسين التفضيلات المباشرة شبه المتصلة (Semi-online Direct Preference Optimization) لتوسيع مجموعة بيانات التدريب بشكل مستمر مع آثار تفكير عالية الجودة تم إنشاؤها بواسطة نموذج مدرّب قوي.

يتيح هذا المسار للنموذج تعلم، واستنباط، وتحسين قدرته على التحقق الذاتي والتصحيح الذاتي. وقد أظهرت التجارب الشاملة عبر معايير متنوعة أن SVSR يعزز دقة التفكير ويُمكن من تعميم أفضل على المهام وأنواع الأسئلة غير المألوفة. الأهم من ذلك، أن النموذج، بعد تدريبه من خلال التفكير الذاتي الصريح، يظهر قدرة محسنة على التفكير الضمني، متفوقاً على المعايير القوية حتى في غياب آثار تفكير صريحة.

تشير هذه النتائج إلى إمكانية استخدام SVSR لبناء أنظمة متعددة النماذج أكثر موثوقية، واستبصاراً، وتتوافق مع الإدراك الفكري.