إن تنامي استخدام نماذج الرؤية-اللغة الكبيرة (Large Vision-Language Models) قد أتاح لنا القيام بإنجازات غير مسبوقة في مجالات التعلم الآلي وتصوير البيانات. ومع ذلك، لا يزال هناك أحد التحديات الكبيرة التي تواجه هذه التقنيات، وهو ظاهرة الوهم (Hallucination) التي تحدث عند سيطرة المعلومات اللغوية على الأدلة البصرية الضعيفة أو الغامضة.

التقنيات الحالية المستخدمة للتقليل من هذه الظاهرة تعتمد عادةً على فك الشفرات التباينية التي تقارن بين التنبؤات المستمدة من الصور الأصلية وتلك التي تعود إلى مدخلات بصرية تم تعديلها بشكل خارجي. رغم فعالية هذه الطرق، إلا أنها تحمل تكاليف إضافية وتنتج أحيانًا آثار غير مرغوب فيها بسبب إدخال مرجع خارج عن المعايير.

في ضوء ذلك، تقديم تقنية SIRA (Shared-Prefix Internal Reconstruction of Attribution) يُعتبر خطوة جريئة وغير تقليدية. لا تتطلب هذه التقنية أي تدريب مسبق، بل تعتمد على تدفق المعلومات المتدرج (Staged Information Flow) لدى المحولات متعددة الوسائط (Multimodal Transformers).

بدلاً من إزالة المعلومات البصرية، تتيح SIRA لتوكنات الصور والنصوص التفاعل من خلال بادئة مشتركة، مما يؤدي إلى تكوين حالة متعددة الوسائط منظمة بدقة. بعد ذلك، تُنشئ SIRA فرعًا مضادًا داخل طبقات المحولات اللاحقة، مما يتيح للحسابات أن تركز على معلومات معينة مع الحفاظ على السياق متعدد الوسائط.

تظهر التجارب التي أُجريت على مجموعات بيانات مثل POPE وCHAIR وAMBER باستخدام نماذج Qwen2.5-VL وLLaVA-v1.5 أن SIRA تقلل من الوهم بشكل ملحوظ، مع الحفاظ على نسبة تغطية وصفية أفضل وتكلفة أقل مقارنة بفك الشفرات التباينية التقليدية.

لذا، في حال كنت تبحث عن أدوات لتحسين دقة نماذج الذكاء الاصطناعي لديك، فإن SIRA قد تكون الحل الأمثل بلا حاجة لتكرار البيانات أو أدوات خارجية.