تعد مسألة اكتشاف المحتوى الضار في المحادثات متعددة الأدوار واحدة من التحديات المعقدة التي تواجهنا في عصر الذكاء الاصطناعي (AI). ففي هذه البيئات التفاعلية، يتطلب الأمر فهم السياق الكامل للحوار بدلاً من تقييم العبارات بشكل منفصل. ومع ذلك، فإن الطرق التقليدية تعاني من قيود كبيرة، إذ تعتمد غالباً على المعرفة الداخلية للنماذج دون الرجوع إلى مبادئ أخلاقية واضحة.

لذا، تم تقديم RoTRAG، وهو إطار عمل يستند إلى أساليب محسّنة من خلال دمج ما يسمى بـ "قواعد الإبهام" (Rules of Thumb) التي تم كتابتها بواسطة البشر. يعمل RoTRAG على استرجاع هذه القواعد الأخلاقية من مكتبة معلوماتية خارجية ويستخدمها كأدلة معيارية لتقييم كل جولة من الحوار.

هذه الطريقة تسمح بتصنيف أفضل للضرر وتقدير أكثر دقة لشدة المخاطر الاجتماعية بشكل يجعل النتائج أكثر توافقًا مع المعايير الأخلاقية. وقد أظهرت التجارب على مجموعات بيانات مثل ProsocialDialog وSafety Reasoning Multi Turn Dialogue أن RoTRAG يحقق تحسينات ملموسة، حيث سجل زيادة نسبتها حوالي 40% في دقة التصنيف (F1) مقارنة بالنماذج الأخرى.

إضافةً إلى ذلك، تم تقديم مصنف ثنائي خفيف الوزن لتحسين الكفاءة، حيث يقرر ما إذا كانت الجملة الجديدة تتطلب رجوعًا إلى المبادئ الأخلاقية أو إذا كان يمكن reused existing context.

باختصار، يمثل RoTRAG نقطة تحول في كيفيات تقييم الحوارات، ويعد بتقليص الأخطاء وزيادة الكفاءة بشكل ملحوظ، دون التضحية بالأداء. إنه نموذج مثير للاهتمام لكافة المهتمين بأبحاث الذكاء الاصطناعي وأخلاقياته.