اكتشاف أسرار الهلوسة الناتجة عن التعليمات في النماذج اللغوية البصرية
تسلط دراسة جديدة الضوء على ظاهرة الهلوسة في النماذج اللغوية البصرية، حيث يتفوق النص على الأدلة البصرية. تكشف التحليلات عن طرق مدهشة لتعزيز دقة النماذج وتحسين إدراكها البصري.
في عصر الذكاء الاصطناعي، تعتبر النماذج اللغوية البصرية (Vision-Language Models) من أبرز التطورات التقنية، ولكنها ليست خالية من العيوب. دراسة جديدة نشرت على منصة arXiv تكشف عن ظاهرة مثيرة تتعلق بما يُعرف بالهلوسة الناتجة عن التعليمات (Prompt-Induced Hallucination)، حيث يفضل النموذج التعليمات النصية على الأدلة البصرية، مما قد يؤدي إلى استنتاجات غير دقيقة.
تتناول الدراسة حالة محددة تتعلق بعدد الأجسام المصورة، بحيث تُطالب النماذج بوصف عدد أكبر من الأجسام مما هو موجود فعليًا في الصورة. فعلى سبيل المثال، يمكن للطلب على وصف أربع زهرات لوتس في صورة تحتوي على ثلاث فقط، أن يؤدي إلى تضليل النموذج. في الحالات التي تحتوي على عدد قليل من الأجسام، غالبًا ما تستجيب النماذج بتصحيح تقديراتها. ولكن مع زيادة عدد الأجسام، تميل النماذج إلى الالتزام بالنص الموجه، دون حول وتفكير في الواقع البصري.
عبر تحليل آلي لمجموعة من ثلاثة نماذج، يُظهر الباحثون أن هناك عددًا محدودًا من رؤوس الانتباه التي يمكن تقليلها ولكن بشكل ملحوظ يقلل من الهلوسة الناتجة عن التعليمات بنسبة 40% على الأقل، دون الحاجة لتدريب إضافي. ومن المثير للدهشة أن هذه الرؤوس، المعروفة برؤوس الهلوسة الناتجة عن التعليمات، تلعب دورًا حاسمًا في كيفية التفاعل مع التعليمات بطريقة خاصة بالنموذج.
تسهم هذه النتائج في فهم الآليات الداخلية التي تحرك هذه الهلوسات، موضحة الفروقات بين النماذج وكيفية تأثير ذلك على سلوكها. رؤية تكنولوجية جديدة لإمكانيات الذكاء الاصطناعي تُظهر أن تحسين الدقة يمكن أن يكون قريب المنال من خلال فهم أعمق لكيفية عمل هذه الأنظمة المعقدة.
تتناول الدراسة حالة محددة تتعلق بعدد الأجسام المصورة، بحيث تُطالب النماذج بوصف عدد أكبر من الأجسام مما هو موجود فعليًا في الصورة. فعلى سبيل المثال، يمكن للطلب على وصف أربع زهرات لوتس في صورة تحتوي على ثلاث فقط، أن يؤدي إلى تضليل النموذج. في الحالات التي تحتوي على عدد قليل من الأجسام، غالبًا ما تستجيب النماذج بتصحيح تقديراتها. ولكن مع زيادة عدد الأجسام، تميل النماذج إلى الالتزام بالنص الموجه، دون حول وتفكير في الواقع البصري.
عبر تحليل آلي لمجموعة من ثلاثة نماذج، يُظهر الباحثون أن هناك عددًا محدودًا من رؤوس الانتباه التي يمكن تقليلها ولكن بشكل ملحوظ يقلل من الهلوسة الناتجة عن التعليمات بنسبة 40% على الأقل، دون الحاجة لتدريب إضافي. ومن المثير للدهشة أن هذه الرؤوس، المعروفة برؤوس الهلوسة الناتجة عن التعليمات، تلعب دورًا حاسمًا في كيفية التفاعل مع التعليمات بطريقة خاصة بالنموذج.
تسهم هذه النتائج في فهم الآليات الداخلية التي تحرك هذه الهلوسات، موضحة الفروقات بين النماذج وكيفية تأثير ذلك على سلوكها. رؤية تكنولوجية جديدة لإمكانيات الذكاء الاصطناعي تُظهر أن تحسين الدقة يمكن أن يكون قريب المنال من خلال فهم أعمق لكيفية عمل هذه الأنظمة المعقدة.
📰 أخبار ذات صلة
أبحاث
صيادو الذكاء الاصطناعي: كيف تساهم اكتشافات الفلك في أزمة وحدات معالجة الرسوميات العالمية؟
تيك كرانشمنذ 4 ساعة
أبحاث
خفض تكاليف الذكاء الاصطناعي: NVIDIA وGoogle تتعاونان في ابتكارات جديدة
أخبار الذكاء اليوميةمنذ 4 ساعة
أبحاث
جوجل كلاود تبتكر ReasoningBank: إطار ذكي لاستنباط استراتيجيات التفكير من تجارب النجاح والفشل!
مارك تيك بوستمنذ 9 ساعة