في عالم تطوير نماذج تحويل النص إلى صورة (Text-to-Image, T2I)، يسعى المطورون إلى تحقيق التوازن بين الأمان والفعالية، حيث تُعتبر نماذج التحكم في الأمان وسيلة لكبح الجوانب الضارة أثناء الحفاظ على الأداء في الطلبات العامة. لكن، قد تكون النتائج المتوصَّل إليها مبنية على مقاييس عالمية سطحية لا تعكس بدقة فاعلية النماذج.

بحث حديث أظهر أن نماذج الأمان غالباً ما تُظهر انخفاضاً ملحوظاً في الدقة الدلالية عندما يتم قياس الفعالية بشكل مُفصَّل. فعلى سبيل المثال، عندما تم استخدام معيار تقييم دقة النص إلى صورة (Text-to-Image Faithfulness evaluation with Question Answering, TIFA)، لاحظ الباحثون فشل النماذج في الاعتماد على السمات الصحيحة أو في دقة العد بين الكائنات.

لفهم مصدر هذا الفجوة، جرى تحليل بنية مساحة تمثيل النص، والتي أظهرت انكماشاً في تباعد التمثيلات مما أثر على مدى التشابه بين الطلبات. لذا، يأتي الاقتراح بتقنية جديدة تُعرف باسم "الانتظام الهندسي القائم على البنية" (Structure-Aware Geometric Regularization, SAGE)، والتي تهدف إلى الحفاظ على توزيع التمثيل وعلاقات الطلبات أثناء عمليات التكييف.

توضح النتائج أنه باستخدام تقنية SAGE، يمكن استعادة فاعلية مُهيكلة تصل إلى زيادة 5% في نتائج معيار TIFA بالمقارنة مع الحالة السابقة الأفضل، بينما يتم الحفاظ على مستوى مرتفع من الأمان وسجلات معيارية تنافسية. للمزيد من التفاصيل، يمكنكم زيارة رابط المشروع.