تتطور نماذج اللغة الضخمة (LLMs) لتصبح العمود الفقري لوكلاء الإنترنت المستقلين ونظم المعلومات المعقدة على الويب، مما يجعل قدرتها على تحويل اللغة الطبيعية إلى أشكال هيكلية دقيقة أمرًا بالغ الأهمية، خصوصًا عند استدعاء واجهات التطبيقات البرمجية (APIs) وتبادل البيانات. ومع ذلك، يظل تقييم دقة الهيكل لهذه النماذج في بيانات الويب أمرًا مُعقدًا؛ حيث تفشل مقاييس النصوص التقليدية في التقاط التناسق الطوبولوجي في البيانات شبه الهيكلية، بينما تتسم التقييمات اليدوية بالتكلفة العالية.

لذا، نُقدم إطار العمل الجديد المعروف باسم Structure-BiEval، الذي يعتمد على التعلم الذاتي لتقييم الجودة بشكل كمي، دون الحاجة إلى بيانات مُعلّمة، مما يجعله مخصصًا لهندسة بيانات الويب. من خلال الاستفادة من تمثيلات وسطية حتمية، يُمكن لإطار العمل هذا فصل الهيكل عن المحتوى بدقة، مستخدمًا مقاييس دقة المحتوى الدلالي (Content Semantic Accuracy) والمسافة المحررة الطبيعية للأشجار (Normalized Tree Edit Distance).

لقد قمنا بإجراء تقييم تجريبي على 15 نموذجًا من نماذج اللغة الضخمة المتقدمة عبر هيكليتين مختلفتين على الويب؛ وهما بيانات هيكلية هرمية (Hierarchical Data) وبيانات جدولية (Tabular Data). تُظهر النتائج تباينًا كبيرًا في الأداء الهيكلي، مع حالات يُظهر فيها نماذج متوسطة الحجم أداءً يفوق نظرائها الأكبر في تنسيق بيانات الويب. وعلاوة على ذلك، تكشف نتائجنا أن العش nesting العميق يمثل تحديًا متكررًا لوكلاء الويب عبر قياسات معلمات مختلفة.

يُعد هذا البحث خطوة مهمة نحو تحسين طرق تقييم نماذج اللغة الضخمة، مما يساهم في تعزيز دقة استجابة نظم المعلومات على الويب. هل أنتم متحمسون لرؤية كيف سيغير هذا الابتكار مستقبل تقنيات الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات.