في عالم البيانات الضخمة، تعتبر دقة تحديد الكيانات (Entity Resolution) إحدى التحديات الرئيسية التي تواجه الباحثين والمطورين. دراستنا الجديدة تأخذنا إلى عمق هذه المسألة من خلال النظر في استخدام نظام أوركل يمكنه معالجة دفعات محدودة من السجلات في كل مرة. الهدف من هذا النهج هو تجميع السجلات التي تشير إلى نفس الكيان الحقيقي مهما كان حجم قاعدة البيانات.
تتضمن المشكلة المطروحة تفكيك كيفية استجواب هذا الأوركل بفعالية لتحسين تحديد الكيانات من مجموعة بيانات قد تكون أكبر بكثير من حجم الدفعة الواحدة. وقد قدمنا استراتيجية للدفع عند الاستخدام (pay-as-you-go) مما يتيح التحكم الكامل في التكاليف المرتبطة بعدد استفسارات الأوركل، مع السعي لتحقيق أعلى درجات الاسترجاع (recall) في كل خطوة.
نحن نطرح هذه المسألة كمشكلة دقة الكيانات المجزأة (Batched Entity Resolution)، حيث أثبتنا أن اختيار الدفعات المثلى يعد من المشكلات الصعبة (NP-hard). لكننا قدمنا حلاً مثالياً تحت ظروف طبيعية تتعلق بأحجام الكيانات.
بعد ذلك، قمنا بتقييم نهجنا على ستة مجموعات بيانات المختلفة، وأظهرت النتائج تفوقه على الحلول التقليدية الموجودة في السوق. هذا يدلل على أن الاستراتيجية الجديدة ليست مجرد نظرية بل يمكن تطبيقها بكفاءة في الواقع.
تحسين دقة تحديد الكيانات من خلال استفسارات أوركل مجمعة: الطريق إلى نتائج أفضل!
تتناول الدراسة الجديدة كيفية التعامل مع أوركل محدود القدرة لمعالجة دفعات من السجلات لتجميع الكيانات المتشابهة. تقدم الطريقة المقترحة حلاً فعالاً يحقق نتائج مذهلة عند العمل مع مجموعات بيانات ضخمة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
