في عصر استخدام نماذج الرؤية واللغة (Vision-Language Models) في التطبيقات الحساسة مثل القيادة الذاتية والرعاية الصحية، باتت ثقة المستخدمين في تفسيرات هذه النماذج أمرًا بالغ الأهمية. لذا، نحن بحاجة إلى تناول مسألة "الهالوسات السيمانطيقية"، وهي المشكلة التي تعاني منها معظم تقنيات الذكاء الاصطناعي القابلة للتفسير (Explainable AI) حيث تظهر نماذج التفسير مناطق بارزة في الصور حتى مع وجود أوصاف نصية غير صحيحة، مثل الإشارة إلى كلب عند الطلب باستخدام الكلمة "قطة".
على الرغم من أن هذه المشكلة منتشرة، إلا أن التحليل الرياضي الرسمي لتقنيات الذكاء الاصطناعي القابلة للتفسير وارتباطات CLIP لا يزال غائبًا عن الأدبيات. وقد أظهرت الأبحاث الجديدة أن هذه الظاهرة ليست محددة بهندسة معينة، بل هي نتيجة أساسية لما يسمى بـ "تسرب سيمانطيقي خطي" في فضاءات الارتباط عالية الأبعاد.
من هنا، قدم الباحثون إطارًا نظريًا موحدًا يعرف باسم "الاستدلال السيمانطيقي الخطي" (Linear Semantic Attribution - LSA) والذي يتجاوز الأساليب التمييزية. كما تم تقديم الابتكار الجديد "التدخل الهندسي" (Orthogonal Semantic Projection - OSP) الذي يستفيد من خاصية البواقي (residual property) لتفكيك الإشارات السيمانطيقية الفريدة من المفاهيم المشتركة.
أثبت الباحثون نظريًا وعبر التجارب العملية أن OSP يقلل من الهلوسة من خلال إيجاد علاقة عمودية بين المتجه الاستفساري والمفاهيم المربكة، مما يجعل نموذج التفسير غير ملاحظ للميزات المشتركة مع الحفاظ على دقة الاستجابة للمطالب الصحيحة. يتوفر كود هذا البحث على: https://github.com/emirhanbilgic/Orthogonal-Semantic-Projection.
كشف النقاب عن الهلوسات: الابتكار الثوري في تفسير نماذج الرؤية واللغة
تثير نماذج الرؤية واللغة (Vision-Language Models) تساؤلات حول موثوقية تفسيراتها، خاصة في التطبيقات الحيوية. نقدم في هذا المقال إطارًا نظريًا مبتكرًا يهدف لتقليل الهلوسات السيمانطيقية وتحسين دقة التفسيرات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
