في عالم الذكاء الاصطناعي، تتطلب مهام تحويل الرؤية إلى كود (Vision-to-Code) نماذج متطورة لإعادة بناء المدخلات البصرية الهيكلية، مثل الرسوم البيانية والجداول، إلى تمثيلات قابلة للتنفيذ ذات دقة بصرية عالية. على الرغم من أن نماذج اللغة الكبيرة الخاصة بالرؤية (Large Vision Language Models) حققت نتائج مميزة عبر تحسينات إشرافية، إلا أن استخدام التعلم المعزز (Reinforcement Learning) يبقى تحدياً بسبب عدم توافق إشارات المكافأة.

تشير الأبحاث الحالية إلى أن المكافآت الموجودة إما تعتمد على قواعد نصية أو تشابه خشن في التضمينات المرئية، مما يفشل في التقاط الفروقات الدقيقة في المحتوى البصري ويكون عرضة للإستغلال. هنا يأتي دور نموذج مكافأة التوافق المرئي (Visual-ERM)، وهو نموذج مكافأة توليد متعدد الوسائط يقدم تغذية راجعة دقيقة وقابلة للتفسير، مما يتيح تقييم جودة الرؤية إلى كود مباشرة في الفضاء المرئي المصور.

عند دمجه مع التعلم المعزز، يساهم نموذج Visual-ERM في تحسين أداء نموذج Qwen3-VL-8B-Instruct بنسبة +8.4 في مهام تحويل الرسوم البيانية إلى كود، مع تقديم مكاسب ثابتة في تحليل الجداول والرسوم المتجهة (+2.7، +4.1 في المتوسط)، إضافة إلى تعزيز القدرة على التوسع في وقت الاختبار عبر عملية الانعكاس والتعديل.

كما نقدم أيضًا معيار VisualCritic-RewardBench (VC-RewardBench)، وهو معيار لتقييم الفروقات الدقيقة بين الصور على البيانات المرئية الهيكلية، حيث يتفوق نموذج Visual-ERM عند 8B بشكل حاسم على نموذج Qwen3-VL-235B-Instruct ويقترب من النماذج المغلقة المتقدمة. تشير نتائجنا إلى أن إشراف المكافآت البصرية الدقيقة ضروري وكافٍ لتطبيق التعلم المعزز في مهام الرؤية إلى كود بغض النظر عن خصوصية المهمة.

في ختام هذا التقرير، نرى أن التقدم في نموذج Visual-ERM يفتح آفاق جديدة في كيفية التعامل مع المهام المرئية المعقدة، مما يضمن تفاعلاً أكثر دقة وأعلى كفاءة. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.