في عالم الذكاء الاصطناعي، لا يزال [تقييم](/tag/تقييم) [نظم الحوار](/tag/نظم-الحوار) متعدد الأدوار يمثل تحديًا كبيرًا، حيث ترتبط جودة الاستجابة ليس فقط بالمطالبة الحالية، ولكن أيضًا بالكيانات والادعاءات والالتزامات الموجودة سابقًا. حتى الآن، كانت [أدوات](/tag/أدوات) [التقييم](/tag/التقييم) التلقائية، بما في ذلك [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) وأطر [عمل](/tag/عمل) ومنهاج [القياس](/tag/القياس) المعتمد على التضمين، تعتمد بشكل كبير على [تمثيلات](/tag/تمثيلات) مسطحة أو عزلة الدور، مما جعلها أقل فعالية في [اكتشاف](/tag/اكتشاف) القضايا الطويلة الأمد مثل التناقض، وتحول الموضوع، وعدم تناسق الكيانات.

في هذا السياق، تم تقديم SKG-Eval، وهو إطار شبه حتمي وقابل للتفسير يقوم بنمذجة الحوار كرسوم بيانية معرفية [دلالية](/tag/دلالية) (Semantic Knowledge Graph) تتطور [عبر](/tag/عبر) الأدوار. يقوم هذا الإطار بتحديث [الرسم البياني](/tag/الرسم-البياني) بصفة تدريجية من خلال استخراج ثلاثي منظم، ويحسب ثلاثة [إشارات](/tag/إشارات) تكاملية:

1. **الصلة المحلية**: تقيس [توافق](/tag/توافق) الردود مع المحتوى الحالي والمرجع الاختياري.
2. **الاتساق التاريخي**: يقيم كيفية ارتباط [المعلومات](/tag/المعلومات) المقدمة حديثًا بسياق [المحادثة](/tag/المحادثة) السابق باستخدام [إشارات](/tag/إشارات) قائمة على [الرسم البياني](/tag/الرسم-البياني) وتوجهات التضمين.
3. **الاتساق المنطقي**: يتم تقييمها [عبر](/tag/عبر) محرك [اكتشاف](/tag/اكتشاف) التناقض الهندسي الذي يكتشف النزاعات العابرة للأدوار دون الاعتماد على [نماذج](/tag/نماذج) NLI أو القضاة من [LLM](/tag/llm).

تتم معالجة هذه الإشارات بشكل تكيفي وتدمج وتجمع في درجة جلسة غير متغيرة الطول من خلال [تحليل](/tag/تحليل) الاتجاه المعتمد على الوزن الحديث. على مدار عدة محطات اختبار، أثبتت [SKG-Eval](/tag/skg-eval) أنها [تحقق](/tag/تحقق) علاقة أعلى مع [التقييمات](/tag/التقييمات) البشرية وتحسن بشكل كبير من القدرة على [اكتشاف](/tag/اكتشاف) عدم الاتساق بعيد المدى في [المحادثات](/tag/المحادثات) الممتدة.

بالإضافة إلى ذلك، تنتج هذه الإطار [شهادات](/tag/شهادات) تناقض صريحة ودرجات [حتمية](/tag/حتمية) للمدخلات الثابتة، مما يمكّن من [تقييم](/tag/تقييم) قابل لإعادة الإنتاج والمراجعة.

بشكل عام، تشير نتائجنا إلى أن [التتبع](/tag/التتبع) المنظم للحالة الخارجية من خلال [الرسوم البيانية المعرفية](/tag/الرسوم-البيانية-المعرفية) الدلالية يوفر بديلاً قابلاً للتوسع للتفكير الضمني في [أدوات](/tag/أدوات) [تقييم](/tag/تقييم) الحوار القائمة على [LLM](/tag/llm).