في عالم البيانات اليوم، يعد استخدام البيانات الاصطناعية أسلوبًا شائعًا للتغلب على ندرتها، لكن ذلك يأتي مع مخاطر كبيرة، أهمها الانهيار النموذجي. يشير مفهوم الانهيار إلى تلك الحالة التي تتآكل فيها الاختلافات الجوهرية في البيانات، مما يؤدي إلى نتائج هوموجينية. تحيز اختيار العينات هو أحد العوامل الرئيسة التي تسهم في هذه الظاهرة، حيث يعتمد بشكل كبير على التوزيع المرجعي المستخدم من قبل المحقق (verifier).

تبين الأبحاث أن في البيئات ذات الموارد المحدودة، حيث يحصل كل محقق على شريحة صغيرة وغير متحيزة من المنحنى المستهدف، يصبح الاختيار نفسه مُنَحازًا. هذه الظاهرة شائعة في مجالات مثل الصحة المالية أو المؤسسات المالية المملوكة، حيث لا يمكن تجميع البيانات الخام، وتكون المراجع المحلية دائمًا غير مكتملة. في هذه الظروف، يميل الاختيار إلى الاحتفاظ بالعينات المتوافقة مع المنحنى المحلي بينما يتم استبعاد الأنماط الهامة عالميًا، مما يحول أداة الأمان إلى آلية تؤدي إلى الانهيار.

تقدم الدراسة دليلًا نظريًا على أن هذا الاختيار المنعزل يعجل من عملية الانهيار ويتسبب في تآكل التنوع بشكل متسلسل. كإجراء أولي لتخفيف هذه الظاهرة، تم إنشاء مراجع اعتبارية باستخدام Wasserstein من عدة مواقع دون الحاجة لمشاركة البيانات الخام. تؤكد النتائج التجريبية أن اختيار المراجع المحلية يفشل عند التعامل مع التوزيعات المتحيزة، بينما تساهم المراجع الاعتبارية التعاونية في تقليل تدهور التنوع. وهذا يدل على ضرورة توخي الحذر عند تطبيق أنظمة البيانات الاصطناعية عند البحث عن بيانات حقيقية ذات تغطية محدودة.