في عالم الذكاء الاصطناعي، تشكل نماذج ربط الصور (Visual Grounding) خطوة أساسية لفهم كيفية ارتباط النصوص بالصور. ولكن ماذا يحدث عندما تكون النصوص غير متطابقة مع محتوى الصورة؟ هذا ما حاولت دراسة جديدة تسليط الضوء عليه من خلال تحليل ظاهرة الأنيسوتروبية (Anisotropy) التي قد تساهم في الأخطاء الناتجة عن الاضطرابات العكسية (Counterfactual Perturbations).
تستند الدراسة إلى فرضية أن النماذج البصرية تفترض دائماً وجود الكائن الموصوف في الصورة، إلا أن الأداء ينخفض عندما يواجه النموذج معلومات مغايرة. يتمثل التحدي في أن هذه الأشكال من الانطباعات قد تؤدي إلى سلوك غير موثوق، حيث تنتج النماذج صناديق محاذاة غير دقيقة.
تمت معالجة هذه الإشكالية من خلال تنظيم بروتوكول لتوليد تسميات عكسية تخضع لرقابة تشابه المعالم، مما يتيح تحليل سلوك النماذج بشكل أدق. تم إجراء تجارب على نموذجين معمارين مختلفين (TransVG المستند إلى BERT وSwimVG المستند إلى CLIP)، ورغم اختلاف الهندسة المعمارية، إلا أن النتائج أظهرت عدم وجود ارتباط معنوي بين تشابه جيب التمام (Cosine Similarity) وسلوك النماذج عند مواجهة الاضطرابات.
توصلت الدراسة إلى أن الأنيسوتروبية وحدها لا تفسر الأخطاء الناتجة عن الاضطرابات، وأن الفهم الأعمق للخصائص الهندسية لنقاط البيانات في فضاء التضمين سيكون مفتاح تعزيز موثوقية النماذج. تشكل هذه النتائج دعوة للاعتماد على منهجيات تحليلية مختلفة لتحسين أداء نماذج الذكاء الاصطناعي في مهام ربط الصور بطريقة تتسم بالموثوقية والشفافية.
ما رأيكم في هذه التطورات الجديدة وكيف يمكن أن تؤثر على مجالات الذكاء الاصطناعي في المستقبل؟ شاركونا في التعليقات.
استكشاف الأنموذج البصري تحت تأثير الاضطرابات العكسية: كيف تؤثر الأنيسوتروبية على دقة النماذج؟
تتناول هذه الدراسة تأثير الأنيسوتروبية على نماذج ربط الصور مع السياقات الخاطئة، مما يكشف جوانب جديدة في موثوقية النماذج. تعتمد النتائج على تجارب مفصلة تستند إلى نماذج Transformers مختلفة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
