تعتبر نماذج الرؤية واللغة الكبيرة (LVLMs) من الابتكارات الرائدة في مجال التصوير الطبي، حيث تمكنت من تحقيق أداء قوي في المهام المتعلقة بالتصوير الطبي. إلا أن هذه النماذج لا تزال تواجه تحديات مهمة مثل التناقضات الواقعية، وضعف التوافق البصري، وفقدان التوجه نحو التعليقات السريرية الهامة.

تواجه الطرق الحالية لتحسين النماذج بعد التدريب، مثل تحسين التفضيلات المباشرة (Direct Preference Optimization - DPO) وبدائلها، ثلاث قيود رئيسية في المجال الطبي:

1. **معالجة متساوية**: حيث يتم التعامل مع الرموز الحيوية سريريًا على أنها نصوص عادية غير مهمة، مما يؤثر سلبًا على دقة النتائج.
2. **الاعتماد على مراجع ثابتة**: حيث تؤدي هذه المراجع إلى انزلاق توزيعي يؤثر على دقة الإجابات، مع توجيهها نحو الشكل الجمالي بدلاً من الصحة السريرية.
3. **عدم وجود قيود بصرية واضحة**: حيث تفتقر الأهداف التوافقية إلى قيود بصرية، مما يجعل النماذج غير حساسة لميزات مرضية دقيقة ولكنها حاسمة.

لذا، نقدم طريقة جديدة تعتمد على أداة تنظيم كلي ثنائية الاتجاه مع هدف تمييزي بصري، حيث يتم ربط الصور النقية والصور المتضررة من الآفات لمعاقبة الاستجابات التي تُنتج من دون أدلة بصرية كافية. من خلال دمج هذه المكونات، يمكن إنشاء إطار عمل دقيق وفعال يقوم بتشكيل أزواج التفضيلات من خلال تعديل نموذج الاستجابات بشكل بسيط، وتصحيح الأخطاء السريرية فقط مع الحفاظ على الأسلوب اللغوي الأصلي.

تظهر التجارب الشاملة عبر المهام المتعلقة بالتصوير الطبي ومعايير توليد النصوص السريرية فعالية طريقتنا، مما يعزز من دقة التوقعات السريرية ويحسن من تجارب المرضى.