تواجه نماذج الرؤية واللغة الكبيرة (Large Vision-Language Models) تحديات كبيرة في تقديم أداء دقيق، حيث أن قدرتها على التوليد تظل عرضة للخداع، مما يؤدي إلى إنتاج محتوى لا يتوافق مع الصورة المدخلة. دراسات حديثة ربطت هذه الظاهرة بسلطة المعلومات اللغوية على المدخلات البصرية، وطرحت أساليب جديدة للتخفيف من هذا التأثير عبر تقنيات التشفير التبايني. ومع ذلك، لم يتم استكشاف الجوانب الميكانيكية لهذا السلوك بشكل كافٍ.
نسلط الضوء الآن على تقنية FADE (FFN Attenuation for DEcoding)، التي تهدف إلى تقليل هذا التصرف غير المرغوب فيه عن طريق تعديل مخرجات الشبكات العصبية. من خلال تحليلات مفصلة لمجرى المعلومات في طبقات النموذج، وجدنا أن وحدات الانتباه تحتفظ باستمرار بالأدلة البصرية، في حين أن وحدات الشبكة العصبية السريعة (FFN) في طبقات حرجة تمثل المصدر الرئيس للمعلومات اللغوية. لذلك، يمكن أن تتفوق هذه الأخيرة على الأدلة البصرية، مما يؤدي إلى انحراف التوقعات الصحيحة نحو مخرجات غير صحيحة.
تتيح FADE إمكانية تقليل تسلط المعلومات اللغوية دون الحاجة إلى إعادة تدريب النموذج، وقد أظهرت التقيمات على معايير مثل POPE وCHAIR وMME عبر نماذج مثل LLaVA-1.5 وmPLUG-Owl2 وInstructBLIP نجاحها في التخفيف من مشاكل الخداع مع الحفاظ على كفاءة الاستنتاج. هذا الإنجاز يمثل خطوة مهمة نحو تحسين دقة الذكاء الاصطناعي في معالجة وفهم المعلومات البصرية.
FADE: طريقة مبتكرة للتقليل من خدع الذكاء الاصطناعي في نماذج الرؤية واللغة
تستعرض الدراسة الحديثة تقنية FADE التي تساعد في تقليل الخدع الناتجة عن تسلط المعلومات اللغوية في نماذج الرؤية واللغة. تعتمد الطريقة على تقنيات جديدة للسماح بتحقيق نتائج أكثر دقة في تحليل الصور.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
