في الآونة الأخيرة، شهدنا تقدمًا ملحوظًا في تقنيات توليد ثلاثي الأبعاد، خاصة مع تطور نماذج الانحلال النصي إلى صورة (text-to-image diffusion models). ومع ذلك، لا تزال هناك تحديات عملية تواجه النماذج الحالية. إحدى هذه التحديات هي قدرتها على إنتاج مجسمات ثلاثية الأبعاد متعددة الأجسام، والتي غالبًا ما تكون معقدة بسبب قلة النمذجة للعناصر البصرية الشفافة (Gaussian primitives) في تفاعلات معقولة.

تظهر مشكلة أخرى في عدم تناسق عرض المشاهد الثلاثية (cross-view inconsistency) أثناء تحسين النماذج الثلاثية الأبعاد، بحيث يعمل أسلوب عينة تمييز الدرجات (Score Distillation Sampling) على كل عرض بشكل منفرد، مما يؤدي بالضرورة إلى أوهام مشهدية متداخلة.

لمعالجة هذه التحديات، تم تقديم تقنية جديدة تُعرف بـ I2C-3D، التي تمثل أسلوبًا مبتكرًا يستند إلى تحسين فعّال لتوليد الأصول ثلاثية الأبعاد المركبة المتسقة عبر وجهات نظر متعددة. تستند الاستراتيجية الجديدة المسماة "التصادمات التفاعلية الشاملة" (Inclusive Interactive Collisions) لإرشاد العناصر البصرية إلى التفاعل في مناطق معينة بشكل طبيعي، مما يضمن تفاعل الأشياء في المشهد المركب بشكل منطقي بصريًا.

لزيادة تناسق المناظر المتعددة، تم تصميم أسلوب عينة تمييز الدرجات القابلة للتكيف مع زوايا العرض (Multi-View Adaptive Score Distillation Sampling)، والذي يعمل على تعديل خريطة الانتباه لمؤشر العنصر (instance token) والعنصر المكاني (spatial token) عبر وجهات النظر المختلفة.

إنَّ بفضل هذه التصاميم المدروسة، لا يعزز نظام I2C-3D من جودة التوليد فقط، بل يوفر أيضًا دعمًا مرنًا لتحرير النماذج الثلاثية الأبعاد، مما يسهل إنشاء المشاهد المعقدة. وعبر تجارب مكثفة، أثبتت I2C-3D أنها تتفوق على الأساليب الحالية من حيث الجودة والتناسق متعدد المناظر.