في عالم الذكاء الاصطناعي، تُظهر نماذج الرؤية واللغة الكبيرة (Large Vision-Language Models - LVLMs) تقدمًا ملحوظًا في فهم محتوى الصور والنصوص معًا. ومع ذلك، توجد مشكلة شائعة تُعرف بالهلوسة، حيث تقوم هذه النماذج بتوليد أجسام أو كيانات غير موجودة في الصورة الأصلية. يعود ذلك في الغالب إلى ضعف الربط البصري مع تقدم عملية التوليد.

للتغلب على هذه المشكلة، تم اقتراح أسلوب جديد يعرف بـ BRACS (Barrier-Regulated Adaptive Closed-form Steering). يتميز BRACS بكونه إطار عمل لا يحتاج إلى تدريب، حيث يوفر حلاً ذكيًا للتعامل مع الهلوسة في نماذج الرؤية واللغة. إذ يعتمد على مراقبة انتباه النموذج نفسه لقياس مدى الربط البصري ويطبق التصحيحات فقط عندما يتدهور الربط.

تأتي التحسينات المقدمة من BRACS في وقت تشهد فيه الأساليب السابقة ثلاث مشكلات رئيسية: غياب هدف ربط صريح، التدخل حتى في الحالات التي يكون فيها النموذج جيدًا بالفعل في الربط، واستخدام قوة تصحيح ثابتة لا تتكيف مع شدة فشل الربط.

أظهرت التجارب مع نموذج LLaVA-1.5-7B ونموذج Qwen-VL-Chat أن BRACS يتفوق باستمرار على الطرق السابقة في مؤشرات الهلوسة، حيث قلل CHAIR$_s$ بنسبة 9.4 نقطة وحسّن POPE F1 بنسبة 2.7 نقطة، دون التأثير على الأداء في أربعة معايير متعددة الوسائط العامة. كما أنه يعمل بكفاءة، حيث يعمل بمعدل 80% من سرعة فك التشفير الجشع ويحقق سرعة أعلى بمقدار 1.3 مرة في المتوسط مقارنةً بالأساليب التقليدية.

بهذا الابتكار، يُفتح الباب أمام تحسينات جديدة في دقة نماذج الرؤية واللغة، مما يسمح بتطبيقات أكثر موثوقية وفعالية في العديد من المجالات.

ما رأيكم في هذا التطور المثير؟ شاركونا في التعليقات!