في عالم الذكاء الاصطناعي، تعتبر بيانات التفضيل الثنائي أداة أساسية لتدريب وتقييم نماذج اللغة مثل نماذج التعلم المعزز من التغذية المرتدة البشرية (RLHF). ومع ذلك، المشكلة تكمن في أن كل نقطة بيانات تسجل فقط خيارًا وليس المدارك التي أدت إلى ذلك الخيار.

تسعى بعض الأساليب مثل الذكاء الدستوري العكسي (ICAI) إلى تحسين إمكانية تفسير النتائج من خلال ضغط البيانات إلى ``دساتير'' قصيرة تتضمن مبادئ باللغة الطبيعية. لكننا نؤكد أن هذا الإطار يحتاج إلى مزيد من التحديد، فالقائمة المسطحة من المبادئ ليست قاعدة قرار قابلة للتنفيذ لأنها تترك تركيب المبادئ ضمني.

في دراستنا، استخدمنا سياق التفضيلات الثنائية كنموذج اختباري لتحديد ثلاث مشاكل رئيسية تعوق طرق الدستور. المشكلة الأولى هي صعوبة قياس جودة المبادئ: حيث أن التغطية والدقة تعدان مؤشرات مفيدة، لكنها غير مكتملة لإعادة البناء من البداية إلى النهاية.

المشكلة الثانية هي غموض التركيب: عند تثبيت المبادئ، يتفق المنفذون المختلفون (مثل قضاة نماذج اللغة مقابل تصويت الأغلبية) بنسبة 73% فقط. وأخيرًا، تختلف الدساتير بين نماذج اللغة: إذ تبلغ نسبة توافق التصويت عبر النماذج 73%، بينما توافق الأصوات داخل النموذج الواحد يصل إلى 81%.

نستخدم البيانات من PRISM وAlpacaEval وChatbot Arena لتظهر أبحاثنا أن تحسين المبادئ (ICAI+) قد يكون خطوة أولى نحو معالجة هذه القضايا، حيث يرتفع توافق المنفذين إلى 78%، ويتطابق دقة المنفذين الشفافين مع دقة قضاة نماذج اللغة (66% مقابل 67%). تؤكد نتائجنا على ضرورة تقييم الدساتير كنظم ``دستور-منفذ''، ولها آثار واسعة على اعتبار نماذج اللغة كقضاة.

إن فهمنا للتحديات المتعلقة بتفضيلات الدستور سيؤدي إلى تحسينات هائلة في تطوير نماذج الذكاء الاصطناعي. كيف تعتقد أن هذه التحديات يمكن أن تُعالج في المستقبل؟ شاركونا آرائكم في التعليقات!