في عالم التكنولوجيا المتسارع، تُعتبر نماذج اللغات المتعددة الوسائط (Multimodal Large Language Models، MLLMs) واحدة من أبرز الابتكارات التي تساعد في تحويل العناصر المرئية إلى شفرات برمجية، مثل تحويل التصميمات الأولية (UI mockups) إلى HTML أو الرسوم البيانية العلمية إلى سكربتات بايثون.

تُظهر الدراسات أن المخطط الدائري يمكن اعتباره نوعاً من اللغة المرئية الخاصة بالتقنية، حيث أنه يتضمن معلومات مcritical حول التوقيت والتصميم والمعاني على مستوى البتات، وهي أمور قد تكون غير مرئية عند النظر السطحي، ولكنها حاسمة عند تصنيعها في السليكون.

يعد تحويل هذه المخططات إلى شفرة على مستوى نقل السجلات (Register-Transfer Level، RTL) اختباراً موثوقاً للغاية لتوليد الشفرات من الرؤية.

ومع ذلك، تم الكشف عن ظاهرة تُعرف بـ"السراب" (Mirage)، حيث يؤدي استبدال المخطط الدائري بصورة فارغة إلى بقاء معدل النجاح (Pass@k) كما هو أو حتى ارتفاعه، لأن النماذج تتجاوز الإدخال المرئي وتستفيد بدلاً من ذلك من معاني المعرفات (identifier semantics) في رأس الوحدة لاسترجاع قوالب RTL القياسية.

تشكل هذه الظاهرة نوعاً جديداً من العيوب الخفية في توليد الشفرات المدعومة بالذكاء الاصطناعي، مما يقوض الثقة في نماذج MLLMs. ولقياس هذا التأثير، تم إنشاء C2VEVAL وتقييم ثماني نماذج MLLMs تحت بروتوكول مزدوج Normal/Anony، حيث يقوم وضع Anony بإخفاء جميع المعرفات في المخطط ورأس الوحدة. أظهرت النتائج انخفاضاً حاداً في درجات وضع Anony عبر جميع النماذج، مما أكد أن دقة وضع Normal قد تكون في الغالب مجرد سراب.

للتغلب على هذا التحدي، اقترح الباحثون نموذج VeriGround (4B) الذي تم تدريبه بمراعاة إخفاء المعرفات، وتعزيز رفض الحالات وعدم الاعتماد على نتائج مشكوك فيها. يحقق VeriGround معدلات نجاح مرنة تصل إلى 46.11% و42.51% في وضع Normal وAnony على التوالي، مع معدل رفض زائف قدره 1.20% و0.00%، مع الحفاظ على أكثر من 92% في حالة الصور الفارغة.

بفضل وجود 4 مليار معامل، يتمتع VeriGround بأداء متقارب مع GPT-5.4 في وضع Normal، ويتفوق بشكل ملحوظ على جميع الأسس تحت وضع Anony، مما يؤكد النتيجة المرئية الحقيقية.