في عالم الذكاء الاصطناعي، تقدم نماذج رؤية اللغة (Vision-Language Models أو VLMs) تقدمًا كبيرًا في فهم الصور المرتبطة بالنصوص، ولكنها لا تزال تواجه تحديات كبيرة في ما يُعرف بأوهام تعيين البكسلات (Pixel-Grounding Hallucinations). هذه الأوهام قد تؤدي إلى إنتاج أقنعة لكائنات غير صحيحة أو قد تقترح وجود كائنات غير موجودة على الإطلاق.
تستند التقييمات الحالية إلى تغيرات نصية أو قائمة، حيث تُقيَّم دقة النموذج من خلال مقارنة القناع المتوقع بالتصنيف المستفسر، مما يغفل الأبعاد المكانية وشدة الظهور الوهمي. لذا، قدم الباحثون مفهوم "تفكير قسمي مضاد للحقائق" (Counterfactual Segmentation Reasoning أو CSR) - حيث يجب على النموذج فصل بين الكائن المشار إليه في الصورة الحقيقية وعدم الإشارة إليه في الصورة المضادة للحقائق.
للدعم في هذه المهمة، تم إنشاء "HallusegBench"، وهو أول معيار على نطاق واسع لتشخيص أوهام تعيين الكائنات باستخدام مضادات الحقائق البصرية، مع مقاييس تقييم جديدة تقيس شدة الأوهام وتفصل بين الأوضاع الفاشلة المدفوعة بالرؤية واللغة.
كما تم تقديم "RobustSeg"، وهو نموذج VLM مُدرّب بتقنية Fine-Tuning مضادة للحقائق (Counterfactual Fine-Tuning أو CFT) لتعزيز القدرة على تحديد متى يجب عليه الإشارة أو الامتناع عن ذلك. أظهرت النتائج التجريبية أن "RobustSeg" يقلل من الأوهام بنسبة 30%، مع تحسين الأداء في تحديد الكائنات.
في النهاية، يمثل هذا التطور خطوة كبيرة في مجال الذكاء الاصطناعي، حيث يفتح الآفاق لتحسين فعالية نماذج رؤية اللغة بشكل عام. فما رأيكم في هذه التقنية الجديدة؟ هل تعتقدون أنها ستحدث فرقًا كبيرًا في المستقبل؟ شاركونا في التعليقات.
تقنية ثورية تكافح أوهام تعيين البكسلات: تعرف على الطريقة الجديدة لتSegmenting الصور
تم تقديم طريقة جديدة تسمى 'تفكير قسمي مضاد للحقائق' لمكافحة أوهام تعيين البكسلات في نماذج الفهم البصري. تقدم هذه التقنية تحسينات ملحوظة في دقة تحديد الكائنات وتمكن من تجاوز الأخطاء الشائعة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
