مع التقدم السريع في تقنيات الذكاء الاصطناعي، برزت نماذج الانتشار (Diffusion Models) كأحد أعظم الإنجازات في تحويل النصوص إلى صور. ورغم ذلك، تواجه هذه النماذج تحديات كبيرة عند التعامل مع توليد كائنات متعددة في نفس المشهد. وقد تركزت دراسة جديدة على فهم الأسباب وراء تلك العوائق، لتكشف أن البيانات تلعب دوراً أساسياً في هذه القيود.

تحقق الدراسة من حالتين رئيسيتين في التعلم: الأولى هي التعميم المفهومي، حيث يتم تدريب النماذج على مفاهيم فردية قد تشوبها توزيعات بيانات غير متوازنة. بينما الحالة الثانية هي التعميم التركيبي، حيث يتم استبعاد مجموعات معينة من المفاهيم خلال التدريب. ولتحليل هذه السيناريوهات، تم تقديم إطار عمل يسمى "موزاييك" (Mosaic) التي تدرس العلاقات المكانية للكائنات المتعددة.

تظهر النتائج أن تعقيد المشهد له دور بارز يتجاوز مشكلة عدم التوازن في المفاهيم. كما يُظهر البحث أن التعلم الدقيق لعملية العد يصبح أكثر صعوبة في سياقات البيانات القليلة. بصرف النظر عن ذلك، فإن فشل التعميم التركيبي يتزايد كلما تم استبعاد مزيد من التركيبات خلال التدريب.

تؤكد هذه النتائج على القيود الجوهرية لنماذج الانتشار، مما يستدعي الحاجة إلى تحسينات في تصميم البيانات وتحفيز انحيازات استقرائية أقوى لتوليد التركيبات بشكل أكثر موثوقية.