في عالم الذكاء الاصطناعي، تعتبر عملية تعلم المكافآت واحدة من أكثر المجالات إثارة للاهتمام، خاصة عند استخدام بيانات تفضيل أفضل من $N$. هذه الطريقة تستند إلى سحب $N$ مرشحين من توزيع أساسي واختيار الأفضل بينهم، لكن كيف نستفيد حقاً من هذه البيانات؟
تتطرق الدراسة الجديدة إلى تحليل عميق حول كيفية استخراج نموذج برايدلي--تيري (Bradley–Terry) لما يمكن أن نتعلمه من هذه البيانات، ومتى وكيف نختار قيمة $N$ والتوزيع الأساسي.
عندما ننظر إلى الفئات المستقلة، يحصل الباحثون على أهداف مكافأة مغلقة كنماذج رياضية تظهر علاقة واضحة بين $N$ والتوزيع الأساسي، مما يضمن المحافظة على ترتيب المكافآت الكامن. لكن الأوضاع العملية مثل المقارنة بين الأفضل والعشوائي أو الأفضل والأسوأ تحتاج إلى اعتبار أعمق، إذ أن البدائل المختارة والمرفوضة غالباً ما تأتي من نفس مجموعة المرشحين، مما قد يعقد الأمر.
مع أن هناك فهم جيد لكيفية تأثير الهوامش والاتصال على كفاءة العينة، تظهر الأبحاث الجديدة أن هناك توازنات مثيرة حيث يساهم زيادة $N$ في توسيع الهوامش ولكن يقلل من الاتصال. لهذا، يتم تقديم مبدأين تصميميين بارزين: زيادة $N$ عندما تكون تسميات التفضيل هي العائق، واختيار قيمة أصغر عندما تكون توليد البيانات هو التحدي. كما ينبغي تشكيل التوزيع الأساسي بحيث يركز على البيانات الأكثر أهمية في الاختبار.
تدعم التجارب على بيانات تفضيل اصطناعية وحقيقية هذا الاعتماد المتزايد على حجم العينة وشكل التوزيع الأساسي.
تعلم المكافآت من بيانات تفضيل أفضل من $N$: استراتيجيات تصميم وتوازنات مثيرة!
تكشف هذه الدراسة عن استراتيجيات تصميم مبتكرة لتعليم المكافآت باستخدام بيانات التفضيل الأفضل من $N$. يدرس البحث كيفية اختيار $N$ والتوزيع الأساسي لتحقيق أقصى قدر من الكفاءة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
