في عالم الذكاء الاصطناعي، يعد توليد الصور متعددة الهويات أحد أكثر التحديات تعقيدًا، حيث يتطلب انسجامًا سلسًا بين هويات مرجعية متعددة ضمن مشهد متماسك. إلا أن الطرق الحالية غالبًا ما تواجه صعوبات في تحقيق توازن مثالي بسبب ما يسمى "معضلة الاستقرار-المرونة"، مما يؤدي إلى فشلها في المهام التي تتطلب تشوهات هيكلية معقدة، مثل تحويل العمر مع الحفاظ على الهوية.

للتغلب على هذه التحديات، تم تقديم تقنية IdGlow، وهي إطار عمل متقدم يتكون من مرحلتين تعتمد على نماذج تدفق التشتت (Flow Matching diffusion models) وتعمل بدون استخدام أقنعة صارمة. في المرحلة الأولى، نبدأ بعملية تنقيح مشرف متقدمة (Supervised Fine-Tuning) حيث تم تقديم جدولة زمنية متطورة تتوافق مع ديناميات التشتت، مما يسمح بتخفيف القيود تدريجيًا لتكوين مجموعات طبيعية. يتم استخدام آلية قفل زمنية تركز على حقن الهوية ضمن نافذة دلالية حاسمة، مما يحافظ على المعاني الوجهية للبالغين دون تجاوز الخصائص التشريحية للأطفال.

أما المرحلة الثانية، فتتضمن تصميم تحسين تفضيل مباشر على مستوى المجموعة (Fine-Grained Group-Level Direct Preference Optimization) مع صياغة هامشية موزونة تهدف إلى القضاء على العيوب المرتبطة بتوليد صور متعددة الأشخاص، وتعزيز انسجام الملمس، وإعادة ضبط مصداقية الهوية لتتناسب مع التوزيعات الواقعية.

عبر التجارب المكثفة على معيارين صعبين - دمج مباشرة لعدة أشخاص وتوليد مجموعات متحولة في العمر - أثبتت IdGlow أنها تقلل بشكل جذري من الصراع بين الاستقرار والمرونة، حيث حققت توازنًا ممتازًا بين الدقة البصرية من الدرجة الأولى والجودة الجمالية التي تتناسب مع المعايير التجارية.