في عالم الذكاء الاصطناعي، توظف التقنيات الحديثة لتحسين كيفية تعامل الآلات مع المعلومات، ومن أبرز هذه الابتكارات تأتي ProMSA، الوكيل البحثي المتعدد الوسائط المتقدم الذي يهدف إلى تعزيز تجربة الإجابة على الأسئلة البصرية المعتمدة على المعرفة.

تتطلب الإجابة على الأسئلة البصرية المعتمدة على المعرفة (Knowledge-based Visual Question Answering - KB-VQA) نماذج تجمع بين فهم الصورة والمعرفة الخارجية. في السابق، اعتمدت معظم الأساليب على آلية ثابتة تقوم بإحضار المعلومات ثم توليد الإجابات، ولكن هذا النظام كان يفتقر إلى التكيف الفوري أثناء عملية التفكير.

تقدم ProMSA بديلاً متميزًا، حيث يقوم الوكيل البحثي بالاختيار بشكل تكراري بين البحث عن الصور، البحث عن النصوص، أو التوقف، متحديًا بذلك القيود التقليدية. يجري كل هذا ضمن ميزانية معينة لأوقات استدعاء الأدوات، مما يضمن عدم تكرار عمليات الاسترجاع.

لتدريب الوكيل، تستخدم المنهجيات الحديثة مثل سحب العينة لإعادة الرفض (Rejection-Sampling SFT) لتعليم تنسيقات استخدام الأدوات الصحيحة، يلي ذلك تحسين الوكيل باستخدام هدف التعلم المعزز TN-GSPO، الذي ينظم التحديثات بحسب طول التوليد وعمق التفاعل مع الأدوات.

أظهرت التجارب على مجموعتي بيانات E-VQA وInfoSeek تحسنًا ثابتًا في الأداء مقارنةً بالأسس القوية مثل RAG ونماذج الوكالات، مما يعكس دقةً أفضل في الاسترجاع ودقة عالية في النتائج النهائية. الكود الخاص بتقنية ProMSA متاح على GitHub للباحثين والمطورين لمزيد من الاستكشاف والتطوير.

بفضل ProMSA، فإن مستقبل الإجابة على الأسئلة البصرية يبدو واعدًا، حيث تفتح هذه التقنية آفاقًا جديدة لمزيد من الابتكارات في عالم الذكاء الاصطناعي.