تُعتبر تقنيات تقليل الأبعاد مثل UMAP وt-SNE أدوات مركزية في مجالات تحليل البيانات وتصورها، لكن غالبًا ما تعاني هذه الأدوات من مشكلة الحفاظ على البنية العامة للبيانات. فبينما تُركز هذه الطرق على الأهداف المحلية، فإنها يمكن أن تحتفظ بالضجيج الناتج عن العينات، مما يؤدي إلى تشويه الطوبولوجيا العالمية.

في دراستنا الأخيرة، نعرض خوارزمية جديدة تُعرف باسم DiRe-RAPIDS، والتي تعيد تعريف كيفية معالجة وتحليل البيانات من خلال تقنيات تقليل الأبعاد. قمنا بتطوير معيار يعتمد على الطوبولوجيا لتقييم دقة هذه المنهجيات، حيث استخدمنا منافيذ مُزعجة (noisy manifolds) ذات تجانس معروف لفحص أداء DiRe.

وأظهرت النتائج أن DiRe-RAPIDS تحقق مستويات مثالية من الأداء، بحيث يمكنها منافسة تقنيات GPU-المُعززة مثل UMAP في تصنيف البيانات، بينما تستعيد بدقة الأرقام البيانية الأولى (first Betti numbers) في اختبارات الإجهاد. وبالإضافة إلى ذلك، حققت DiRe على 723 ألف تجسيد لمقالات arXiv قدرة على الحفاظ على بنية طوبولوجية تفوق UMAP من 3 إلى 4 مرات، في ذات الوقت.