في عصر الذكاء الاصطناعي، تزايد استخدام نماذج الديفيوجن (Diffusion Models) لتحويل النصوص إلى صور في سياقات إبداعية مفتوحة. ومع ذلك، تظل مخرجات هذه النماذج غير شخصية، حيث يتم تحسينها بشكل يتلاءم مع الجماليات العامة بدلاً من تفضيلات الأفراد.

لكل إنسان ذوقه الفريد، حيث قد يفضل مستخدم صوراً تذكارية ذات ألوان باهتة بينما قد يفضل آخر صوراً نابضة بالحياة من الحياة الحضرية. لكن الطرق الحالية تتطلب سجلات تفاعلية كثيفة أو تعديلات دقيقة لكل مستخدم، مما يجعلها غير فعالة في سياقات البداية الجديدة وتهدر الاختيارات المتغيرة بدلاً من الحفاظ عليها.

هنا، تظهر تقنية تخصيص الصور من دون حاجة إلى بيانات شخصية (ZIPP) كحل مبتكر، حيث تعتمد على شخصيات افتراضية (Personas) تصف هوية المستخدم وتفضيلاته الجمالية باللغة الطبيعية، دون الحاجة إلى أي بيانات متعلقة بالمستخدم. تستخدم ZIPP نموذجاً لغوياً ضخماً (LLM) لإعادة صياغة الطلبات من منظور شخص معين، مما يعزز نماذج الديفيوجن لتوليد مخرجات مخصصة.

لتوسيع نطاق استخراج الشخصيات، تم تدريب شبكة انتباه جراف استقرائي (Inductive Graph Attention Network) على مخطط تفاعلي ضخم يضم 22 مليون مستخدم على Reddit، مع أهداف تباينية مزدوجة تتماشى مع سلوكيات التفاعل المرئي، ثم يتم تحويل التمثيلات المتعلمة إلى شخصيات لغوية عبر نموذج لغوي عملاق (MLLM).

كما تم تقديم ZIPBench، وهو أول معيار لتخصيص الصور بدون بيانات شخصية، الذي يتضمن 1,500 مستخدم وصور مستخرجة من الشخصيات، بالإضافة إلى 40,000 صورة مولدة. خلال أربعة معايير و14 نموذج لغوي سطت على خمسة عائلات نماذج، أثبتت تقنية ZIPP تحسينات ملحوظة تتراوح بين 13-20%، حيث كانت النماذج الأكثر تطوراً هي الأكثر استفادة. وفي سياق القليل من الأمثلة، تتفوق ZIPP أو تتساوى مع الأسس الدقيقة التي تم تدريبها على أكثر من 100 مثال لكل مستخدم.

تظهر تحليلات التوزيع المفضل أن ZIPP تحقق أدنى انحراف في التفضيلات (CMMD 0.16 مقابل 0.55)، ومن خلال التقييم المعتمد على التركيبة السكانية، تُظهر التقنية تخفيضًا كبيرًا في التحيز الموجود في الطرق الحالية. وقد أكد التقييم البشري أن ZIPP تحقق نسبة فوز بلغت 79% على المخرجات العامة و58-65% على جميع الأسس الدقيقة.