في عالم الذكاء الاصطناعي، لا تزال نماذج اللغة متعددة الوسائط (Multimodal Large Language Models - MLLMs) تواجه تحديات كبيرة في فهم التفاصيل الدقيقة في الصور. عادةً ما تعتمد الإجابات على أدلة صغيرة ولكن حاسمة تظهر في الصور الكاملة. وقد أظهرت الدراسات الأخيرة وجود فجوة في الإدراك، حيث تتمكن نفس النماذج من الإجابة بدقة أكبر على الأسئلة الدقيقة عندما تُعطى أجزاء مركزة من الأدلة بدلاً من الصور الكاملة.

لهذا السبب، تم اقتراح تقنية جديدة تحمل اسم Vision-OPD (Vision On-Policy Distillation)، وهي إطار عمل يهدف إلى تحسين الفهم البصري من خلال استخدام نموذج يُركّز على التفاصيل الإقليمية لنقل هذه المعرفة إلى نموذج شامل يستند إلى الصورة الكاملة.

هذا النظام يعتمد على سياسة تعليمية تركز على الصور المقطوعة، حيث يتم تدريب نموذجين متوازيين: نموذج مُعَلِّم يركز على الأجزاء المحددة من الصورة ونموذج طلابي يُعالج الصورة الكاملة. من خلال تقليل الفجوة بين النتائج المتوقعة لهذين النموذجيْن، يستفيد النموذج الطالب من الفهم الأقوى للإدراك الإقليمي دون الحاجة إلى نماذج تعليم خارجية أو معززات.

تظهر التجارب على مجموعة متنوعة من المعايير لفهم البصر الدقيق أن نماذج Vision-OPD تحقق أداءً تنافسياً ورائعاً مقارنة بنماذج أخرى أكبر سواء كانت مفتوحة المصدر أو مغلقة، مما يجعل ملامح هذا الابتكار تبدو واعدة كأداة مستقبلية في مجال الذكاء الاصطناعي.