في عالم الذكاء الاصطناعي، أثبتت نماذج اللغة البصرية (Vision-Language Models) أنها أداة قوية لتحليل الصور وفهم النص. لكن، مع زيادة عدد الرموز البصرية التي تُستخدم، تزداد تكلفة استنتاج المُفكك في كل من حسابات الانتباه وذاكرة التخزين المؤقت (KV-cache). في هذا السياق، اعتمدت الأساليب التقليدية لتقليل الرموز على مبدأ الرانك والإزالة، مما يضع حداً نهائياً لفائدة الرموز.

الآن، يظهر بديل مبتكر يُعرف بـ Reroute. هذه التقنية الجديدة لا تقوم بإزالة الرموز البصرية بل تعيد توجيهها، مما يتيح استرجاعها في وقت لاحق عند الحاجة. تكمن الفكرة في أن الأهمية النسبية للرموز تتغير أثناء عمق المُفكك، مما يعني أن الرموز التي قد تبدو غير هامة في مرحلة معينة يمكن أن تصبح ضرورية في مراحل لاحقة، خصوصًا للاستفسارات التي تتطلب تحديد دقيق.

من خلال استخدام طريقة Reroute، يمكن للباحثين اختيار رموز بصرية معينة لتخطي بعض مراحل المُفكك، بينما تُعاد الرموز المؤجلة إلى مجموعة المرشحين في قرار التوجيه التالي. هذا النهج يحافظ على معايير أداء تقنية تقليل الرموز التقليدية، مما يعني أنّ بإمكان الأنظمة الاستفادة من تحسين الأداء دون التسبب في فقدان المعلومات الهامة.

تظهر النتائج المستخلصة من تطبيق أسلوب Reroute عبر نماذج مختلفة، مثل FastV وPDrop وN"uwa، تحسنًا ملحوظًا في الأداء دون إغفال في الأسئلة المتعلقة بفهم الصورة. هذه التطورات تفتح آفاقًا جديدة في كيفية تعامل النماذج مع الرموز البصرية. إذاً، لا تعتبر عملية تقليل الرموز خطوة نهائية، بل يمكن أن تُفكك وتُسترجع بطريقة أكثر فعالية.

إذا كنت مهتمًا بمزيد من التفاصيل التقنية، يمكنك زيارة هنا.