تُعتبر الحشود الكبيرة خلال موسم الحج واحدة من أبرز التحديات التي تواجه الباحثين في مجال الذكاء الاصطناعي، حيث يصعب جمع البيانات الدقيقة نظرًا لندرة الصور الموثقة والاعتبارات المرتبطة بالخصوصية. في هذا السياق، يأتى نموذج Pix2Pix-Hybrid (P2P-H) كحل رائد يقدم تقنية متطورة لتحليل الحشود وإنتاج بيانات اصطناعية تؤدي إلى تحسين نتائج حساب الحشود.

يعتمد هذا النموذج على تقنية الشبكات التوليدية العكسية الشرطية (Conditional Generative Adversarial Network) ويجمع بين مهام توليد الصور الدقيقة والتحليل الذكي. من خلال استخدام مُولد مُدمج (U-Net generator) يتم توجيهه بواسطة ثمانية قنوات إدخال، يقوم P2P-H بدمج المعلومات الهيكلية (مثل الحواف والتدرجات الرمادية) مع الخصائص السياقية كالكتافة السكانية ووقت اليوم.

لمواجهة التحديات في تجسيد التفاصيل في المشاهد الكثيفة، تم تطوير إطار عمل يستفيد من اثنين من محكمات PatchGAN متعددة المقاييس، مما يُعزز جودة الصور المُنتَجة. تم تدريب النموذج باستخدام 993 صورة لحج تم جمعها من 60 مصدر فيديو متاح للعامة، حيث تم استخراج الخصائص تلقائيًا لتقليل الحاجة إلى التصنيف اليدوي.

بفضل هذه التكنولوجيا، تم إنشاء قاعدة بيانات صناعية تدعى CrowdH تضم 10,000 صورة حج عالية الدقة. وقد أظهرت التجارب أن أداء P2P-H يتفوق على النماذج التقليدية مثل Pix2Pix وStyleGAN2-ADA. ولقياس فائدة النموذج، تم إنشاء مجموعة بيانات مختلطة CrowdH-Mix-469 تتكون من 384 صورة حقيقية و85 صورة اصطناعية، مما أظهر تحسناً كبيراً في نماذج حساب الحشود المختلفة.

ما رأيكم في هذا التطور المثير في استخدام الذكاء الاصطناعي؟ شاركونا أفكاركم وتجاربكم في التعليقات!