في خطوة مهمة تكشف النقاب عن تحديات جديدة في عالم الذكاء الاصطناعي، تسلط دراسة حديثة الضوء على قدرة نماذج اللغة متعددة الوسائط (MLLMs) على تقويض أمان اختبارات CAPTCHA التقليدية. يُعد CAPTCHA وسيلة مهمة لحماية المواقع من الروبوتات، لكن هذه النماذج المتقدمة تظهر أنها قادرة على تجاوز هذه الحواجز بسهولة.

تم تقييم سبع نماذج MLLMs تمثيلية على ثمانية عشر نوعاً حقيقياً من مهام CAPTCHA، حيث تم قياس الدقة في المرة الأولى، ومعدل النجاح تحت المحاولات المحدودة، والوقت المستغرق، وتكلفة الحل لكل اختبار. نتائج الدراسة كشفت أن هذه النماذج بإمكانها حل المهام البصرية ذات التفاعل القليل بتكاليف ووقت مماثل للبشر، مما يثير القلق حول سلامة مواقع الويب.

بالرغم من نجاح نماذج MLLMs في المهام البسيطة، إلا أن الدراسة أظهرت أن المهام الأكثر تعقيداً والتي تتطلب دقة متناهية أو تفكير مكاني متسلسل لا تزال تمثل تحدياً كبيراً لها.

من خلال تحليل مسارات التفكير لهذه النماذج، توصل الباحثون إلى آليات لفهم أسباب نجاحها أو فشلها في حل ألغاز CAPTCHA. استندت الدراسة إلى هذه الرؤى لتطوير إرشادات دفاعية تهدف إلى تعزيز فاعلية اختبارات CAPTCHA.

لإثبات هذه المبادئ، قامت الدراسة بتعزيز نوعاً من CAPTCHA المعرض للثغرات باستخدام الإرشادات المطورة. وأثبتت التجربة أن إدخال تغييرات دقيقة مثل تحسين موضع العناصر والتعداد الضمني يمكن أن يؤدي إلى تقليل معدل النجاح لنماذج MLLM من فوق 95% إلى 0%.

تشير هذه النتائج إلى ضرورة ملحة لإعادة تصور تصميم CAPTCHA بشكل حديث، خاصة مع التزايد المستمر في قدرات نماذج الذكاء الاصطناعي. إذن، كيف يمكن للباحثين والمطورين حماية النظام من هذه التحديات المستقبلية؟