في عصر تتسارع فيه وتيرة الابتكارات المتعلقة بتوليد الفيديوهات باستخدام الذكاء الاصطناعي، يبرز تحدٍ كبير في كيفية التمييز بين الفيديوهات المولدة (AI-generated) وتلك الحقيقية. في معظم الأبحاث الحالية، يتم التركيز على تطوير أدوات للكشف عن العيّنات الناتجة عن الشبكات التنافسية التوليدية (Generative Adversarial Networks). لكن، تبقى مسألة كشف الفيديوهات الناتجة عن نماذج التحويل من النص إلى الفيديو (Text-to-Video) نطاقًا لم يتم استكشافه بشكل كافٍ.

تتميز النماذج الحديثة للتحويل من النص إلى الفيديو بقدرتها على توليد محتوى بصري واقعي يشبه مقاطع الفيديو الحقيقية، لكنها غالبًا ما تفشل في إنتاج تفاصيل دقيقة للصورة أو التغييرات في تلك التفاصيل عبر الفيديو. لذا، تأتي الدراسة الجديدة لتقديم منظور جديد حول اكتشاف الفيديوهات المولدة بطريقة تعتمد على "مستويات البت" (Bit-Planes) التي تمدنا بالأدوات اللازمة لوصف التفاصيل أو الضوضاء في الصور والفيديوهات.

تم اقتراح تقنية جديدة تُعرف بتضخيم الضوضاء (Noise Amplification)، والتي تعتمد على خطوات بسيطة لكنها فعالة للغاية. الأولى تتمثل في استخراج إشارات الضوضاء بناءً على مستويات البت، ثم تضخيم تلك الإشارات، وأخيرًا إدخالها في الشبكات التمييزية لتصنيف الفيديوهات المزيفة. هذه التقنية تتناول ثلاثة جوانب رئيسية: تعزيز شدة البيكسل على مستوى الصورة، توسيع نطاق المناطق على مستوى التجميع المكاني، وتجمعات الزمنية على مستوى الإطارات.

لتقييم طرق الكشف عن الفيديوهات المولدة في سيناريوهات صعبة، تم تقديم معيار جديد يُعرف بـHardGVD. أظهرت التجارب المكثفة على كل من مجموعة البيانات الكبيرة GenVidBench وHardGVD أن هذه الطريقة البسيطة تتفوق بشكل ملحوظ على طرق الكشف الحديثة المتاحة حاليًا. إن هذه النتائج تعد بمثابة خطوة هامة نحو تحسين دقة الكشف عن الفيديوهات المولدة بالذكاء الاصطناعي، مما يفتح آفاق جديدة في عالم الأمان الرقمي والمصداقية الإعلامية.