تعتبر عملية اختيار الأدلة البصرية جزءاً حاسماً من استرجاع المعلومات المعززة متعددة الوسائط (Retrieval-Augmented Generation - RAG). ومع ذلك، بدا أن الأساليب التقليدية التي تعتمد على الصلة الدلالية أو التشابه السطحي لا تعكس بالضرورة الفائدة الحقيقية للأدلة البصرية في تحسين عملية التفكير والتخطيط. في هذا السياق، قمنا بإعادة صياغة عملية اختيار الأدلة متعددة الوسائط من منظور معلوماتي، حيث عرفنا فائدة الأدلة كالكسب المعلوماتي الذي يحدث على توزيع ناتج النموذج.

لتجاوز صعوبة تحسين الفضاء الخاص بالإجابات، قدمنا مفهومًا مستترًا لمساعدة الأدلة، وأظهرنا نظريًا أنه، تحت افتراضات بسيطة، فإن ترتيب الأدلة وفقًا للكسب المعلوماتي على هذا المتغير المستتر يعادل فائدة الفضاء الخاص بالإجابات. بالإضافة إلى ذلك، اقترحنا إطار عمل يعتمد على تقديرات الفائدة للأدلة دون الحاجة إلى تدريب مُسبق، مما يسمح بتقدير فعال لفائدة الأدلة باستخدام نماذج متعددة الوسائط خفيفة الوزن.

أظهرت التجارب على مجموعات بيانات MRAG-Bench وVisual-RAG عبر عدة عائلات من النماذج أن أسلوبنا يتفوق باستمرار على أفضل الممارسات الحالية في RAG مع تحقيق تخفيضات كبيرة في التكاليف الحاسوبية. فهذه الابتكارات يُمكن أن تُحدث تحولًا جذريًا في كيفية استخدام الأدلة البصرية في عمليات استرجاع المعلومات وتعزز من فعالية النماذج الذكية.