تواجه نماذج اللغة متعددة الوسائط (MLLMs) تحدياً كبيراً يتضمن ما يعرف بالتخييل، حيث تقوم هذه النماذج بإنتاج محتوى غير متوافق مع الصور المرفقة. في دراسة جديدة، تم اكتشاف توقيع داخلي يشير إلى هذه المشكلة، ويتمثل في تدهور تدريجي لانتقال الانتباه بين النص والصورة أثناء عملية الإنتاج، مما يؤدي إلى أنماط فشل محددة مثل التركيز غير الواضح أو الانحياز في الانتباه.
حيث أن استراتيجيات التخفيف الحالية تعتمد بشكل كبير على النتائج ولا تتعامل بشكل مباشر مع هذا الوضع، اقترح الباحثون إطار عمل يسمى ADAPT (توافق ديناميكيات الانتباه مع ضبط التفضيلات) الذي يتدخل ببساطة في ديناميات الانتباه بين النص والصورة.
يقدم نظام ADAPT ثلاثة إسهامات رئيسية: الأول هو استخدام "مرساة بصرية" تم تحسينها من عملية فك الترميز المبكر لتوفير دعم مكاني مستقر. الثاني هو آلية استدلال معززة بالانتباه التي تكشف وتحسن انحراف الانتباه عبر الإنترنت. الثالث هو توجيه الانتباه البصري الذي يتماشى مع التفضيلات نحو استجابات متصلة بصريًا.
أثبتت التجارب أن كل مكون من مكونات ADAPT يسهم في تقليل التخييل، وأن الإطار الكامل يحقق نتائج جديدة مميزة عبر عدة معايير للتخييل، حيث تقلل معدلات التخييل بنسبة تتراوح بين 40% إلى 60% عبر النماذج الشائعة دون التأثير على القدرات الشاملة للنماذج متعددة الوسائط.
تقدم هذه الدراسة منظوراً جديداً من خلال التركيز على سلوكيات الانتباه الداخلية للنموذج في التعامل مع ظاهرة التخيل، مما يعكس أهمية البحث المستمر في هذا المجال. شيفرة البحث متاحة على GitHub لمن يود الاستفادة منها.
تقنية ADAPT: تغير ديناميكيات الانتباه لتقليل التخييل في نماذج اللغة متعددة الوسائط
تمثل تقنية ADAPT نقطة تحول في معالجة مشاكل التخيل في نماذج اللغة متعددة الوسائط، من خلال تحسين تفاعلات الانتباه بين النص والصورة. يقدم البحث حلاً مبتكرًا يقضي على هذه الظواهر المزعجة بنجاح.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
