في عالم الذكاء الاصطناعي، لا يزال تقييم نظم الحوار متعدد الأدوار يمثل تحديًا كبيرًا، حيث ترتبط جودة الاستجابة ليس فقط بالمطالبة الحالية، ولكن أيضًا بالكيانات والادعاءات والالتزامات الموجودة سابقًا. حتى الآن، كانت أدوات التقييم التلقائية، بما في ذلك نماذج اللغات الضخمة (Large Language Models) وأطر عمل ومنهاج القياس المعتمد على التضمين، تعتمد بشكل كبير على تمثيلات مسطحة أو عزلة الدور، مما جعلها أقل فعالية في اكتشاف القضايا الطويلة الأمد مثل التناقض، وتحول الموضوع، وعدم تناسق الكيانات.
في هذا السياق، تم تقديم SKG-Eval، وهو إطار شبه حتمي وقابل للتفسير يقوم بنمذجة الحوار كرسوم بيانية معرفية دلالية (Semantic Knowledge Graph) تتطور عبر الأدوار. يقوم هذا الإطار بتحديث الرسم البياني بصفة تدريجية من خلال استخراج ثلاثي منظم، ويحسب ثلاثة إشارات تكاملية:
1. **الصلة المحلية**: تقيس توافق الردود مع المحتوى الحالي والمرجع الاختياري.
2. **الاتساق التاريخي**: يقيم كيفية ارتباط المعلومات المقدمة حديثًا بسياق المحادثة السابق باستخدام إشارات قائمة على الرسم البياني وتوجهات التضمين.
3. **الاتساق المنطقي**: يتم تقييمها عبر محرك اكتشاف التناقض الهندسي الذي يكتشف النزاعات العابرة للأدوار دون الاعتماد على نماذج NLI أو القضاة من LLM.
تتم معالجة هذه الإشارات بشكل تكيفي وتدمج وتجمع في درجة جلسة غير متغيرة الطول من خلال تحليل الاتجاه المعتمد على الوزن الحديث. على مدار عدة محطات اختبار، أثبتت SKG-Eval أنها تحقق علاقة أعلى مع التقييمات البشرية وتحسن بشكل كبير من القدرة على اكتشاف عدم الاتساق بعيد المدى في المحادثات الممتدة.
بالإضافة إلى ذلك، تنتج هذه الإطار شهادات تناقض صريحة ودرجات حتمية للمدخلات الثابتة، مما يمكّن من تقييم قابل لإعادة الإنتاج والمراجعة.
بشكل عام، تشير نتائجنا إلى أن التتبع المنظم للحالة الخارجية من خلال الرسوم البيانية المعرفية الدلالية يوفر بديلاً قابلاً للتوسع للتفكير الضمني في أدوات تقييم الحوار القائمة على LLM.
SKG-Eval: ثورة جديدة في تقييم نظم الحوار متعدد الأدوار باستخدام الرسوم البيانية المعرفية الدلالية
تُقدم SKG-Eval إطاراً مبتكراً لتقييم نظم الحوار المعقدة، مما يساعد على اكتشاف التناقضات والمشكلات الدلالية عبر محادثات متعددة الأدوار. هذا التطور يعد خطوة كبيرة نحو تحسين تقييم جودة الاستجابات وفهم نتائج المحادثات بشكل أفضل.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
