في عالم الذكاء الاصطناعي، تعتبر نماذج اللغة المرئية (Visual Language Models - VLMs) من الابتكارات الرائدة التي أحدثت ثورة في كيفية فهم وتحليل البيانات البصرية والنصية. ومع ذلك، لوحظ أن هذه النماذج تنتج تنبؤات هلوسية - أي تنبؤات غير متأصلة في أدلة بصرية واضحة، مما يثير تساؤلات حول متانة وجودة هذه التنبؤات.
في دراستنا الجديدة، قمنا بتحليل كيف يمكن لهذه التنبؤات أن تتأثر بالتغيرات العكسية (Counterfactual Perturbations). من خلال تعريف مقياس تأثير سببي يعتمد على الفروقات في الاحتمالات اللوغاريتمية بين النتائج الواقعية والمعدلة، قمنا بتقييم استقرار هذه التنبؤات الهلوسية.
لقد اعتمدنا على تقنيات اكتشاف الدوائر (Circuit Discovery Techniques - CD-T) لتحديد العناصر التي تسهم في تكوين هذه التنبؤات، وراقبنا فوارق تنشيطها عبر مجموعة من العينات المعدلة. ومن ثم، وضعنا حدوداً تجريبية على الحد الأدنى من عدد العينات العكسية المطلوبة لاكتشاف عدم الاستقرار في المخرجات الهلوسية بشكل موثوق، مستندين إلى عدم المساواة في التركز وتقديرات تباين توزيع التأثير السببي.
تسليط الضوء على هذه المشكلات يجعلنا نعيد التفكير في كيفية تصميم نماذج اللغة المرئية بشكل أكثر دقة وموثوقية، وهذا قد يمهد الطريق نحو تحسينات كبيرة في مجالات متعددة تتطلب المعرفة البصرية والنصية بالتوازي.
كم عدد التغيرات العكسية التي تحتاجها؟ استكشاف هلوسات نماذج اللغة المرئية من خلال الدوائر والآثار السببية
تظهر الأبحاث أن نماذج اللغة المرئية (VLMs) تنتج تنبؤات هلوسية غير مستندة إلى أدلة بصرية، مما يثير تساؤلات حول قوتها. هذا البحث يدرس تعقيد العينة اللازمة لفهم استقرار هذه التنبؤات عند حدوث تغييرات عكسية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
