تعتبر عملية التوافق الشخصي مع تفضيلات المستخدمين إحدى الركائز الأساسية لتمكين نماذج اللغات الضخمة (LLMs) من التفاعل بشكل فعال مع المستخدمين. ولكن، تواجه الأساليب الحالية تحديين رئيسيين: فهي تفشل في استنتاج التفضيلات العميقة وغير المعلنة للمستخدمين، بما في ذلك الأهداف غير المصرح بها والسياق الدلالي ومستويات تحمل المخاطر. كما تفتقر أيضًا إلى مهارات التفكير الدفاعي اللازمة للتعامل مع الغموض الذي يكتنف العالم الحقيقي.

النتيجة هي ردود فعل ضحلة وضعيفة وقصيرة النظر. للتغلب على هذه العقبات، نعرض منهجية جديدة تُعرف باسم "التوافق المدفوع بالنقد" (Critique-Driven Reasoning Alignment - CDRA)، والتي تعيد صياغة مفهوم التوافق من مهمة مطابقة مكافآت قائمة على التقييم إلى عملية تفكير منظم.

لجسر الفجوة في استنتاج التفضيلات، نقدم معيار "DeepPref"، وهو مجموعة بيانات تحتوي على 3000 زوج من الاستفسارات والتفضيلات عبر 20 موضوعًا مختلفًا. تم تجميع هذه البيانات simulating مع مجلس إداري متعدد الأبعاد ينتج سلاسل تفكير مُعَلّقة بالنقد لتحليل دلالات الاستفسارات وكشف المخاطر الكامنة.

وأيضًا، لتعزيز مهارات التفكير الدفاعي، نقدم نموذج مكافآت العملية التوليفية الشخصية (Personalized Generative Process Reward Model - Pers-GenPRM)، الذي يُعرّف نمذجة المكافآت كمهام تفكير شخصية. يقوم هذا النموذج بإنشاء سلسلة نقدية لتقدير توافق الرد مع تفضيلات المستخدمين قبل إصدار score نهائي بناءً على هذا المنطق.

في نهاية المطاف، توفر هذه الإشارة المكافأة المنظمة والقابلة للتفسير مسارًا لسياسة نموذجية من خلال التوافق المدفوع بالنقد، وهي خوارزمية قابلة للتعلم المعزز التي تدمج بين التعليقات العدديّة ولغة الطبيعية.

تظهر التجارب أن CDRA تبرز في اكتشاف والتوافق مع التفضيلات الحقيقية للمستخدمين، بالإضافة إلى تنفيذ تفكير قوي. يمكن العثور على الكود الخاص بنا وبيانات المجموعة في [الرابط].

ما رأيكم في هذا التقدم المثير في مجالات الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات.