في عالم الذكاء الاصطناعي، تعد النماذج التي تجمع بين الرؤية واللغة (Vision-Language Models) من أهم التطورات. ومع ذلك، تعاني هذه النماذج من قلة الدقة البصرية، حيث توجه الانتباه بشكل محدد للنصوص أكثر من الصور. هنا يأتي دور تحسين السياسات المدعومة بصرياً (Visually-Guided Policy Optimization - VGPO) كتقنية جديدة تُعزز من أداء هذه النماذج.
تستند فكرة VGPO إلى استعادة التركيز البصري وتحسين الذاكرة البصرية خلال خطوات التفكير. يتم ذلك من خلال آلية تعويض الانتباه البصري التي تستخدم التشابه البصري لتسليط الضوء على الإشارات البصرية وتعزيزها. في المراحل المتقدمة، يتم رفع التوقعات البصرية لمواجهة مشكلة النسيان البصري.
كما يقدم VGPO استراتيجية جديدة لإعادة وزن الحوافز على مستويين: المستوى الداخلي والمسارات. حيث يركز المستوى الداخلي على الرموز التي تظهر تفاعلاً بصرياً عالياً، بينما يفضل المستوى الخارجي المسارات التي تثبت تراكم بصري أفضل.
أثبتت التجارب أن VGPO يعزز من تفاعل النماذج مع البيانات البصرية ويحسن من أدائها بشكل ملحوظ، خاصة في مهام الرياضيات والتفكير المتعدد الوسائط. وللمطورين الذين يرغبون في تجربة هذه التقنية، يمكنهم زيارة كود المشروع على GitHub.
تحسين السياسات المدعومة بصرياً: ثورة في التفكير المتعدد الوسائط!
تقدم تقنية تحسين السياسات المدعومة بصرياً (VGPO) إطاراً مبتكراً لتعزيز التركيز البصري في نماذج الرؤية واللغة. النتائج التجريبية تظهر تحسناً ملحوظاً في الأداء في مهام التفكير المتعدد الوسائط.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
