أصبحت النماذج الحديثة لتوليد الصور قادرة على إنتاج صور ذات جودة عالية واحدة تلو الأخرى، لكن المشكلة تكمن في الاستمرارية عبر سلسلات هذه الصور، خاصة فيما يتعلق بالقصص المصورة والقصص البصرية. هنا يأتي دور
Long-Context Generation (LCG)، وهو إطار عمل جديد يهدف إلى معالجة هذه القضايا.

يعتمد LCG على ميكانيزم Sparse Relational Attention (SRA) الذي يتيح له التركيز بشكل انتقائي على الميزات الأساسية عبر السياقات البصرية الطويلة. هذا يسمح للمعلومات الدلالية وتصميم التخطيط بالانتقال بكفاءة دون تحميل زائد على النظام.

لضمان التوافق الدلالي، تم تقديم Constraint المسمى Routing Consistency Constraint (RCC)، والذي يعتمد على أقنعة تأخذ الهوية في الاعتبار لمزامنة الأنماط الهيكلية عبر فروع التوليد. هذا يحافظ على المظهر المتجانس حتى في المشاهد متعددة الشخصيات، مما يقلل من الاختلافات غير المرغوب فيها.

لدعم التدريب والتقييم في هذا السياق الجديد، تم تطوير مجموعة بيانات Long-Context Consistency Dataset (LCCD)، التي تتألف من 600,000 تسلسل تدريبي و1,000 تسلسل اختبار، كل منها يحتوي على 6 إلى 20 صورة.

تظهر التجارب أن LCG يتفوق على النماذج الأخرى في توافق المحفز والاتساق بين الشخصيات، مما يفتح باباً جديدًا للإبداع في مجال الرسوم المتحركة والسرد البصري.