في عالم الذكاء الاصطناعي، يعد [توليد الصور](/tag/[توليد](/tag/توليد)-[الصور](/tag/الصور)) متعددة الهويات أحد أكثر التحديات تعقيدًا، حيث يتطلب انسجامًا سلسًا بين هويات مرجعية متعددة ضمن مشهد متماسك. إلا أن الطرق الحالية غالبًا ما تواجه صعوبات في [تحقيق](/tag/تحقيق) توازن مثالي بسبب ما يسمى "معضلة [الاستقرار](/tag/الاستقرار)-[المرونة](/tag/المرونة)"، مما يؤدي إلى فشلها في المهام التي تتطلب تشوهات هيكلية معقدة، مثل [تحويل](/tag/تحويل) العمر مع الحفاظ على [الهوية](/tag/الهوية).

للتغلب على هذه التحديات، تم تقديم [تقنية](/tag/تقنية) IdGlow، وهي إطار [عمل](/tag/عمل) متقدم يتكون من مرحلتين تعتمد على [نماذج تدفق](/tag/[نماذج](/tag/نماذج)-تدفق) التشتت ([Flow Matching](/tag/flow-matching) [diffusion models](/tag/diffusion-models)) وتعمل بدون استخدام أقنعة صارمة. في المرحلة الأولى، نبدأ بعملية تنقيح مشرف متقدمة (Supervised Fine-Tuning) حيث تم تقديم [جدولة](/tag/جدولة) زمنية متطورة تتوافق مع [ديناميات](/tag/ديناميات) التشتت، مما يسمح بتخفيف [القيود](/tag/القيود) تدريجيًا لتكوين مجموعات طبيعية. يتم استخدام آلية قفل زمنية تركز على حقن [الهوية](/tag/الهوية) ضمن نافذة [دلالية](/tag/دلالية) حاسمة، مما يحافظ على المعاني الوجهية للبالغين دون تجاوز الخصائص التشريحية للأطفال.

أما المرحلة الثانية، فتتضمن [تصميم](/tag/تصميم) [تحسين](/tag/تحسين) تفضيل مباشر على مستوى المجموعة (Fine-Grained Group-Level Direct Preference [Optimization](/tag/optimization)) مع صياغة هامشية موزونة تهدف إلى [القضاء](/tag/القضاء) على العيوب المرتبطة بتوليد [صور متعددة](/tag/[صور](/tag/صور)-متعددة) الأشخاص، وتعزيز انسجام الملمس، وإعادة ضبط [مصداقية](/tag/مصداقية) [الهوية](/tag/الهوية) لتتناسب مع [التوزيعات](/tag/التوزيعات) الواقعية.

[عبر](/tag/عبر) [التجارب](/tag/التجارب) المكثفة على معيارين صعبين - دمج مباشرة لعدة أشخاص وتوليد مجموعات متحولة في العمر - أثبتت IdGlow أنها تقلل بشكل جذري من الصراع بين [الاستقرار](/tag/الاستقرار) والمرونة، حيث حققت توازنًا ممتازًا بين [الدقة](/tag/الدقة) البصرية من الدرجة الأولى والجودة الجمالية التي تتناسب مع [المعايير](/tag/المعايير) التجارية.