في عصر البيانات الضخمة، تعتبر تسوية الكيانات (Entity Resolution) إحدى القضايا المركزية في إدارة البيانات واستخراج المعلومات. هذه العملية تهدف إلى تحديد السجلات التي تشير إلى نفس الكيان الحقيقي من مجموعة بيانات واحدة قد تكون فوضوية. للأسف، الطريقة التقليدية المستخدمة في هذا المجال والتي تعتمد على التجزئة، المطابقة، والتجميع تعاني من عدة عيوب جوهرية.

المشكلة تكمن في أن هذه الأنظمة تنتج رسومًا بيانية ثابتة ووفيرة، تعاني من عدم وجود روابط نتيجة فشل التجزئة، وروابط مشوشة بفعل أخطاء المطابقة، مما يؤدي إلى انتشار الأخطاء وتشكيل مجموعات غير مثالية. ولحل هذه المشكلة، نحن نقدم Alper، إطار عمل موحد يجمع بين كل من خطوات المطابقة والتجميع في عملية نشر تسميات probabilistic iteratively على رسم بياني عالمي ومتطور.

تُعد الطريقة التي يتبناها Alper أكثر قوة، حيث تقوم بتحديث بنية الرسم البياني وتسميات الكيانات بشكل ديناميكي، من خلال دمج الإشارات الضعيفة والرخيصة القادمة من نشر الرسوم البيانية مع استعلامات ذات قوية ومكلفة تعتمد على نماذج اللغة الكبيرة (LLMs). ولزيادة الكفاءة من حيث التكلفة، تم تشكيل اختيار الإشارات على أنه مشكلة تحسين مقيدة تهدف إلى تعظيم المكاسب المتراكمة تحت ميزانية الاستعلام، حيث يتم حلها عبر خوارزمية جشعة مع ضمانات نظرية مثبتة.

أظهرت التجارب الواسعة التي أجريناها على ثمانية مجموعات بيانات معيارية أن Alper يتفوق بشكل مستمر على الأنظمة التقليدية الموجودة، مما يبشر بعصر جديد من دقة تسوية الكيانات في إدارة البيانات.

مع هذه التطورات الرائعة، كيف ترون مستقبل تسوية الكيانات باستخدام الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات.