في عالم الذكاء الاصطناعي، يعد معالجة المدخلات البصرية بجوار [النماذج اللغوية](/tag/[النماذج](/tag/النماذج)-اللغوية) تحديًا مستمرًا. تعمل [نماذج [اللغة](/tag/اللغة) البصرية](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-البصرية) الضخمة (Large [Vision-Language Models](/tag/vision-language-models)) عادة على [معالجة المعلومات](/tag/معالجة-[المعلومات](/tag/المعلومات)) البصرية كجزء من تسلسل النص الناتج. ومع ذلك، يتسبب هذا [الدمج](/tag/الدمج) في "تخفيف" [المعلومات](/tag/المعلومات) البصرية مع مرور الوقت، مما يُسهم في الاعتماد المفرط على الأسبقيات اللغوية وبالتالي إنتاج نتائج تحتوي على [تضليل](/tag/تضليل) أو [أخطاء](/tag/أخطاء) في [التعرف](/tag/التعرف) على الكائنات.
في محاولة للتغلب على هذه المشكلة، تم تقديم إطار [عمل](/tag/عمل) مبتكر يُدعى [RUDDER](/tag/rudder) (Residual-Update Directed DEcoding Regulation). يواجه هذا النهج [تحدي](/tag/تحدي) [تخفيف التضليل](/tag/تخفيف-التضليل) من خلال إنشاء مرجع بصري دائم يمكن الاعتماد عليه. يتم استخراج اتجاه دليل قوي (CARD) مباشرة من [التحديثات](/tag/التحديثات) المتبقية (residual updates) للنموذج، ليتم حقنه في عملية الترميز.
ما يميز [RUDDER](/tag/rudder) هو وجود بوابة تكيفية تُعرف باسم Beta Gate، والتي تعمل كآلية [ثقة](/tag/ثقة) لضمان تطبيق التذكير البصري فقط عند الضرورة. في [تجارب](/tag/تجارب) أجريت على [نماذج](/tag/نماذج) مثل LLaVA-1.5 وIdefics2 وInstructBLIP وQwen2.5-VL، أظهرت النتائج أن [RUDDER](/tag/rudder) يساهم في تقليل معدلات التضليل بشكل ملحوظ؛ حيث انخفضت معدلات التضليل في الفئات المختلفة بنحو 24.4% و23.6% على التوالي، بينما استمر [الأداء](/tag/الأداء) فائق [الكفاءة](/tag/الكفاءة) بأكثر من 96.0%.
هذا [الابتكار](/tag/الابتكار) يُظهر كيف يمكن لـ [RUDDER](/tag/rudder) أن يُحدث فارقًا حقيقيًا في [تحسين أداء](/tag/[تحسين](/tag/تحسين)-[أداء](/tag/أداء)) [نماذج [اللغة](/tag/اللغة) البصرية](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-البصرية) الضخمة، مما يمهد الطريق لمستقبل أكثر [دقة](/tag/دقة) وكفاءة في [تقنيات الذكاء الاصطناعي](/tag/[تقنيات](/tag/تقنيات)-الذكاء-الاصطناعي).
توجيه ذكي لتخفيف التضليل في نماذج اللغة البصرية الضخمة: ابتكار RUDDER
يقدم نهج RUDDER حلاً مبتكرًا لمشكلة التضليل في نماذج اللغة البصرية الضخمة (LVLMs) من خلال إنشاء مرجع بصري دائم. يحقق هذا الإطار انخفاضًا ملحوظًا في معدل التضليل، مما يحسن دقة النماذج بشكل فعّال.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
