في عالم الذكاء الاصطناعي، يعد معالجة المدخلات البصرية بجوار النماذج اللغوية تحديًا مستمرًا. تعمل نماذج اللغة البصرية الضخمة (Large Vision-Language Models) عادة على معالجة المعلومات البصرية كجزء من تسلسل النص الناتج. ومع ذلك، يتسبب هذا الدمج في "تخفيف" المعلومات البصرية مع مرور الوقت، مما يُسهم في الاعتماد المفرط على الأسبقيات اللغوية وبالتالي إنتاج نتائج تحتوي على تضليل أو أخطاء في التعرف على الكائنات.
في محاولة للتغلب على هذه المشكلة، تم تقديم إطار عمل مبتكر يُدعى RUDDER (Residual-Update Directed DEcoding Regulation). يواجه هذا النهج تحدي تخفيف التضليل من خلال إنشاء مرجع بصري دائم يمكن الاعتماد عليه. يتم استخراج اتجاه دليل قوي (CARD) مباشرة من التحديثات المتبقية (residual updates) للنموذج، ليتم حقنه في عملية الترميز.
ما يميز RUDDER هو وجود بوابة تكيفية تُعرف باسم Beta Gate، والتي تعمل كآلية ثقة لضمان تطبيق التذكير البصري فقط عند الضرورة. في تجارب أجريت على نماذج مثل LLaVA-1.5 وIdefics2 وInstructBLIP وQwen2.5-VL، أظهرت النتائج أن RUDDER يساهم في تقليل معدلات التضليل بشكل ملحوظ؛ حيث انخفضت معدلات التضليل في الفئات المختلفة بنحو 24.4% و23.6% على التوالي، بينما استمر الأداء فائق الكفاءة بأكثر من 96.0%.
هذا الابتكار يُظهر كيف يمكن لـ RUDDER أن يُحدث فارقًا حقيقيًا في تحسين أداء نماذج اللغة البصرية الضخمة، مما يمهد الطريق لمستقبل أكثر دقة وكفاءة في تقنيات الذكاء الاصطناعي.
توجيه ذكي لتخفيف التضليل في نماذج اللغة البصرية الضخمة: ابتكار RUDDER
يقدم نهج RUDDER حلاً مبتكرًا لمشكلة التضليل في نماذج اللغة البصرية الضخمة (LVLMs) من خلال إنشاء مرجع بصري دائم. يحقق هذا الإطار انخفاضًا ملحوظًا في معدل التضليل، مما يحسن دقة النماذج بشكل فعّال.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
