تواجه نماذج الرؤية واللغة الكبيرة (Large Vision-Language Models) العديد من التحديات عند التعامل مع المهام متعددة النماذج، ومن أبرز هذه التحديات هو "تراجع الإشارة البصرية"، حيث يؤدي تراكم النصوص إلى انقسام في وظيفة الانتباه، مما يتسبب في تدهور الانتباه البصري مع زيادة طول التسلسل الناتج. لمعالجة هذا التحدي، تم اقتراح مفهوم "ذاكرة بصرية دائمة" (Persistent Visual Memory - PVM).
ذاكرة بصرية دائمة هي وحدة قابلة للتعلم خفيفة الوزن تهدف إلى ضمان إدراك بصري مستمر عند الطلب. تم دمجها كفرع متوازي بجانب الشبكة التغذوية للأمام (Feed-Forward Network - FFN) في نماذج الرؤية واللغة، وتقوم بإنشاء مسار استرجاع غير معتمد على المسافة، مما يوفر تمثيلات بصرية دقيقة تعزز الإدراك البصري.
من خلال تجارب موسعة على نماذج Qwen3-VL، أظهرت ذاكرة بصرية دائمة تحسينات ملحوظة مع زيادة طفيفة في عدد المعلمات، مما حقق مكاسب دقة متسقة عبر مقاييس 4B و 8B، ولا سيما في المهام المعقدة التي تتطلب إدراك بصري مستمر.
علاوة على ذلك، أظهرت التحليلات العميقة أن ذاكرة PVM كانت قادرة على مقاومة تدهور الإشارة الناتج عن الطول، وتسريع التقارب الداخلي للتوقعات. يُظهر هذا الابتكار أهمية معالجة التحديات التقنية المتصورة في الذكاء الاصطناعي وكذلك فتح آفاق جديدة أمام التطبيقات المستقبلية في هذا المجال.
ذاكرة بصرية دائمة: تعزيز الإدراك في نماذج الرؤية واللغة العميقة
تقدم الدراسة مفهوم ذاكرة بصرية دائمة (Persistent Visual Memory) للتغلب على تحديات تراجع الإشارة البصرية في نماذج الرؤية واللغة. هذه التقنية تعزز القدرة على الإدراك البصري دون التأثير على الأداء العام للنموذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
