في عالم الذكاء الاصطناعي، لا يزال [تقييم](/tag/تقييم) [نظم الحوار](/tag/نظم-الحوار) متعدد الأدوار يمثل تحديًا كبيرًا، حيث ترتبط جودة الاستجابة ليس فقط بالمطالبة الحالية، ولكن أيضًا بالكيانات والادعاءات والالتزامات الموجودة سابقًا. حتى الآن، كانت [أدوات](/tag/أدوات) [التقييم](/tag/التقييم) التلقائية، بما في ذلك [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) وأطر [عمل](/tag/عمل) ومنهاج [القياس](/tag/القياس) المعتمد على التضمين، تعتمد بشكل كبير على [تمثيلات](/tag/تمثيلات) مسطحة أو عزلة الدور، مما جعلها أقل فعالية في [اكتشاف](/tag/اكتشاف) القضايا الطويلة الأمد مثل التناقض، وتحول الموضوع، وعدم تناسق الكيانات.
في هذا السياق، تم تقديم SKG-Eval، وهو إطار شبه حتمي وقابل للتفسير يقوم بنمذجة الحوار كرسوم بيانية معرفية [دلالية](/tag/دلالية) (Semantic Knowledge Graph) تتطور [عبر](/tag/عبر) الأدوار. يقوم هذا الإطار بتحديث [الرسم البياني](/tag/الرسم-البياني) بصفة تدريجية من خلال استخراج ثلاثي منظم، ويحسب ثلاثة [إشارات](/tag/إشارات) تكاملية:
1. **الصلة المحلية**: تقيس [توافق](/tag/توافق) الردود مع المحتوى الحالي والمرجع الاختياري.
2. **الاتساق التاريخي**: يقيم كيفية ارتباط [المعلومات](/tag/المعلومات) المقدمة حديثًا بسياق [المحادثة](/tag/المحادثة) السابق باستخدام [إشارات](/tag/إشارات) قائمة على [الرسم البياني](/tag/الرسم-البياني) وتوجهات التضمين.
3. **الاتساق المنطقي**: يتم تقييمها [عبر](/tag/عبر) محرك [اكتشاف](/tag/اكتشاف) التناقض الهندسي الذي يكتشف النزاعات العابرة للأدوار دون الاعتماد على [نماذج](/tag/نماذج) NLI أو القضاة من [LLM](/tag/llm).
تتم معالجة هذه الإشارات بشكل تكيفي وتدمج وتجمع في درجة جلسة غير متغيرة الطول من خلال [تحليل](/tag/تحليل) الاتجاه المعتمد على الوزن الحديث. على مدار عدة محطات اختبار، أثبتت [SKG-Eval](/tag/skg-eval) أنها [تحقق](/tag/تحقق) علاقة أعلى مع [التقييمات](/tag/التقييمات) البشرية وتحسن بشكل كبير من القدرة على [اكتشاف](/tag/اكتشاف) عدم الاتساق بعيد المدى في [المحادثات](/tag/المحادثات) الممتدة.
بالإضافة إلى ذلك، تنتج هذه الإطار [شهادات](/tag/شهادات) تناقض صريحة ودرجات [حتمية](/tag/حتمية) للمدخلات الثابتة، مما يمكّن من [تقييم](/tag/تقييم) قابل لإعادة الإنتاج والمراجعة.
بشكل عام، تشير نتائجنا إلى أن [التتبع](/tag/التتبع) المنظم للحالة الخارجية من خلال [الرسوم البيانية المعرفية](/tag/الرسوم-البيانية-المعرفية) الدلالية يوفر بديلاً قابلاً للتوسع للتفكير الضمني في [أدوات](/tag/أدوات) [تقييم](/tag/تقييم) الحوار القائمة على [LLM](/tag/llm).
SKG-Eval: ثورة جديدة في تقييم نظم الحوار متعدد الأدوار باستخدام الرسوم البيانية المعرفية الدلالية
تُقدم SKG-Eval إطاراً مبتكراً لتقييم نظم الحوار المعقدة، مما يساعد على اكتشاف التناقضات والمشكلات الدلالية عبر محادثات متعددة الأدوار. هذا التطور يعد خطوة كبيرة نحو تحسين تقييم جودة الاستجابات وفهم نتائج المحادثات بشكل أفضل.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
