تقنية ثورية تكافح أوهام تعيين البكسلات: تعرف على الطريقة الجديدة لتSegmenting الصور

في عالم الذكاء الاصطناعي، تقدم نماذج رؤية اللغة (Vision-Language Models أو VLMs) تقدمًا كبيرًا في فهم الصور المرتبطة بالنصوص، ولكنها لا تزال تواجه تحديات كبيرة في ما يُعرف بأوهام تعيين البكسلات (Pixel-Grounding Hallucinations). هذه الأوهام قد تؤدي إلى إنتاج أقنعة لكائنات غير صحيحة أو قد تقترح وجود كائنات غير موجودة على الإطلاق.

تستند التقييمات الحالية إلى تغيرات نصية أو قائمة، حيث تُقيَّم دقة النموذج من خلال مقارنة القناع المتوقع بالتصنيف المستفسر، مما يغفل الأبعاد المكانية وشدة الظهور الوهمي. لذا، قدم الباحثون مفهوم "تفكير قسمي مضاد للحقائق" (Counterfactual Segmentation Reasoning أو CSR) - حيث يجب على النموذج فصل بين الكائن المشار إليه في الصورة الحقيقية وعدم الإشارة إليه في الصورة المضادة للحقائق.

للدعم في هذه المهمة، تم إنشاء "HallusegBench"، وهو أول معيار على نطاق واسع لتشخيص أوهام تعيين الكائنات باستخدام مضادات الحقائق البصرية، مع مقاييس تقييم جديدة تقيس شدة الأوهام وتفصل بين الأوضاع الفاشلة المدفوعة بالرؤية واللغة.

كما تم تقديم "RobustSeg"، وهو نموذج VLM مُدرّب بتقنية Fine-Tuning مضادة للحقائق (Counterfactual Fine-Tuning أو CFT) لتعزيز القدرة على تحديد متى يجب عليه الإشارة أو الامتناع عن ذلك. أظهرت النتائج التجريبية أن "RobustSeg" يقلل من الأوهام بنسبة 30%، مع تحسين الأداء في تحديد الكائنات.

في النهاية، يمثل هذا التطور خطوة كبيرة في مجال الذكاء الاصطناعي، حيث يفتح الآفاق لتحسين فعالية نماذج رؤية اللغة بشكل عام. فما رأيكم في هذه التقنية الجديدة؟ هل تعتقدون أنها ستحدث فرقًا كبيرًا في المستقبل؟ شاركونا في التعليقات.

تقنية ثورية تكافح أوهام تعيين البكسلات: تعرف على الطريقة الجديدة لتSegmenting الصور

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

هل تتعذر عليك الحصول على جهاز Mac Mini؟ تعرف على السبب وراء التأخير في التوريد!

هل يحدد OpenAI مستقبل الأمن السيبراني؟ الكشف عن أداة GPT-5.5 Cyber المبتكرة!

إيلون ماسك يكشف السر: كيف قامت xAI بتدريب Grok باستخدام نماذج OpenAI!