في عالم توليد الصور، لطالما كانت النماذج القائمة على autoregressive (AR) محط أنظار المعنيين بسبب نجاحها اللافت. غير أن تحسين هذه النماذج لتوليد الصور بناءً على التصميمات المحددة يمثل تحديًا كبيرًا نظرًا للطبيعة المتناثرة لقيود التصميم وخطر تشابك الميزات.

هنا يأتي دور الابتكار الجديد المعنون باسم SMARLI، أو "Structured Masking for AR-based Layout-to-Image"، وهو إطار عمل جديد يُدمج بشكل فعال قيود التصميم المكاني في عملية توليد الصور باستخدام نماذج AR.

تستخدم هذه التقنية استراتيجية تهيئة مصممة مسبقًا للتحكم في تفاعل الرموز العالمية والتصميمات والصور، مما يؤدي إلى تجنب التداخل بين المناطق المختلفة والأوصاف المرتبطة بها. كما أن هذه الطريقة تضمن إدخالًا كافيًا لقيود التصميم خلال عملية التوليد.

ولعلاج مشكلة الانحياز الناتج عن التعرض لطبيعة النماذج AR، تم دمج نظام تحسين سياسة المجموعات النسبية المعتمد على التدريب اللاحق (GRPO)، والذي يتوافق مع نموذج مجموعة الطبقات ويقدم مكافأة تصميم مصممة خصيصًا. يؤدي ذلك إلى تحسين توازن تحسين السياسات من خلال دمج مكافآت جودة الصورة.

النتائج التجريبية تُظهر أن SMARLI يدمج بفعالية الرموز التصميمية مع الرموز النصية والصورية دون أي تدهور في جودة الصورة. كما يمكن لنظام التهيئة والتدريب اللاحق أن يتم نقله أيضًا إلى نماذج AR التقليدية المعتمدة على الرموز التالية، مما يحقق تحكمًا ممتازًا في التصميم مع الحفاظ على البساطة الهيكلية وكفاءة التوليد.

باختصار، يمثل SMARLI خطوة كبيرة إلى الأمام في دمج التصميمات ضمن نماذج AR، مما يفتح آفاقًا جديدة في مجال توليد الصور.