في زمن الوكلاء المستقلين (Autonomous Agents)، يصبح توافر بيانات قابلة للتعامل معها بواسطة الآلات (Machine-actionable Data) أمرًا حاسمًا ضمن سير العمل القائم على البيانات. على مدى العقد الماضي، قدمت البيانات الوصفية الدلالية (Semantic Metadata) مثل schema.org إطارًا راسخًا لمبادئ FAIR (قابلية الاكتشاف، الوصول، التفاعل، وإعادة الاستخدام) وسهلت أدوات الاكتشاف مثل Google Dataset Search.

لكن، مع ظهور نماذج اللغات الضخمة (Large Language Models) التي تتمتع بالقدرة على التنقل عبر الشبكة غير المنظمة، تثار تساؤلات حول مدى ضرورة استخدام البيانات الوصفية الدلالية لاكتشاف البيانات من قبل الوكلاء.

تتناول دراسة مقارنة جديدة تحليل استرجاع البيانات الوكلائية في بيئتين مختلفتين: وكالة أساسية تبحث في مليارات الوثائق المفتوحة على الويب، ووكالة دلالية تستفيد من مجموعة تضم 90 مليون مجموعة بيانات باستخدام schema.org.

استخدمنا قناة تقييم "LLM-as-a-judge" المرتبطة مباشرة بمبادئ FAIR لتقييم الأهمية الدلالية، إمكانية الوصول، والفائدة الحاسوبية للبيانات المسترجعة. أظهرت النتائج تبايناً واضحاً: حيث يتفوق الوكيل الدلالي في استرجاع البيانات القابلة للتنفيذ، محققًا دقة أعلى بنسبة 44.9% لمجموعات البيانات المدعومة بالبيانات الوصفية و46.6% لمواقع ذات تحميلات قابلة للقراءة الآلية بين النتائج.

على النقيض من ذلك، غالبًا ما تعاني الوكالة الأساسية من "فشل الفائدة في المراحل النهائية"، حيث تسترجع صفحات مليئة بالنصوص (20.1% من النتائج) وصفحات هبوطية (8.5%) بدلاً من صفحات البيانات الفعلية. بينما تحقق الوكالة الأساسية تغطية أعلى من خلال الإجابة على 40% من الأسئلة، فإن الوكالة الدلالية تقدم مستوى أعلى من الدقة، حيث تحقق زيادة تصل إلى 65.7% في استرجاع مجموعات البيانات المتوافقة مع FAIR.

في الختام، يمكن القول أن استرجاع البيانات غير المنظمة يدعم مهام الاستكشاف الواسعة، ولكن تبقى الأنظمة المنظمة الأساس الضروري لسير العمل المستقل القابل للتنفيذ.