في السنوات الأخيرة، أحرزت نماذج التحرير البصري تقدمًا مذهلاً، حيث أصبح بالإمكان تعديل الصور بجودة عالية استنادًا إلى تعليمات بشرية. ومع ذلك، لا تزال هذه النماذج تواجه تحديات كبيرة عند التعامل مع تعليمات التحرير المعقدة التي تتضمن عمليات تحرير تركيبية أو تعتمد على روابط بين الخطوات.

تظهر المشكلة بشكل بارز في النموذجين التقليديين المستخدمين في التحرير:
1. **التحرير في دورة مفردة (Single-turn editing)**: حيث يتم محاولة تطبيق جميع التعديلات المطلوبة دفعة واحدة، وهو ما يؤدي غالبًا إلى أخطاء في تفسير التعليمات المعقدة، مما ينتج عنه تعديلات غير مرغوب فيها.
2. **التحرير التسلسلي (Sequential editing)**: يمكنه فكرة تقسيم المهمة إلى خطوات أبسط، ولكنه يتعرض لمشاكل ناجمة عن الأخطاء المتكررة نتيجة للتنفيذ المتتابع، مما يؤدي إلى نتائج ذات جودة منخفضة.

لإيجاد حل فعّال، قام الباحثون بدراسة سلوكيات تحرير الصور عبر نماذج مختلفة ضمن إطار تحرير موحد. من خلال ذلك، تمكنوا من التوازن بين فوائد تفكيك المهام المعقدة والعيوب المرتبطة بتراكم الأخطاء. كما تم تطوير خط أنابيب بيانات صناعية يتيح إعداد مهام تحرير متنوعة في التعقيد، مما ساعد في إنشاء مجموعة بيانات تحرير ضخمة تتميز بسلاسل مفككة ذات جودة عالية.

عند التدريب على البيانات الصناعية، اكتشف الفريق أن استخدام نماذج تحرير مصممة بشكل مناسب يمكن أن يحقق تحسينات ملحوظة حتى في ظل زيادة تعقيد المهام. كذلك، أظهرت المهارات في التفكيك المستفادة من المهام الصناعية إمكانية الانتقال إلى الصور الحقيقية من خلال التدريب المشترك مع بيانات تحرير العالم الحقيقي، مما يفتح آفاقًا جديدة لمواجهة تحديات تحرير الصور المعقدة عبر مجالات متنوعة.