يتزايد الاعتماد على الصور الغنية بالنصوص (text-rich images) في حياتنا الرقمية، حيث تتضمن معلومات حساسة تتعلق بالخصوصية والقرارات. لكن بفضل التطورات السريعة في نماذج توليد الصور متعددة الوسائط (multimodal image generation models)، أصبح من الممكن إنتاج محتوى نصي واقعي وتصاميم بصرية منظمة بشكل مذهل.

في ظل هذا التقدم، أطلقت دراسة جديدة معياراً متعدد المجالات يهدف إلى تحسين الكشف عن الصور الغنية بالنصوص الناتجة عن نموذج GPT Image-2 من شركة OpenAI. تشمل قاعدة البيانات الجديدة حوالي 8,602 صورة موزعة على ست فئات تمثيلية، بما في ذلك الملصقات التجارية، والرسوم البيانية، والملصقات الأكاديمية، والإيصالات، والجداول، ولقطات واجهات المستخدم.

لأول مرة، يتم تقييم خمسة أدوات لرصد الصور المدعومة بالذكاء الاصطناعي في وضع عدم وجود بيانات مسبقة (zero-shot setting). تكشف النتائج أن أداء أدوات الكشف يعتمد على المجال المستخدم فيه، حيث تشير النتائج إلى أن الأساليب التي تُظهر أداءً جيدًا في بعض الفئات قد تفشل في أخرى، وهو ما يمثل تحدياً كبيراً.

علاوة على ذلك، تم إجراء تقييم استكشافي باستخدام نموذج لغوي-رؤيوي متعدد الوسائط، مما أظهر إمكانياته وقيوده المتعلقة بالتعامل مع التنسيقات المهيكلة. تُبرز هذه النتائج الحاجة الملحة لتطوير أساليب كشف قادرة على فهم النصوص وترتيبها في الصور الناتجة عن الذكاء الاصطناعي.

يعد هذا البحث خطوة مهمة نحو ضمان الثقة الرقمية في المحتوى التي يتم إنشاؤه بواسطة الذكاء الاصطناعي. إذًا، ماذا تنتظر؟ ما رأيكم في هذه المبادرة الجديدة؟ شاركونا في التعليقات.