في عالم الذكاء الاصطناعي، تُعتبر مشاكل التعلم المعزز (Reinforcement Learning) من أبرز التحديات، حيث تهدف عادةً إلى زيادة القيمة المتوقعة لوظيفة المكافأة العددية. ولكن ماذا لو كان بالإمكان تحديد الأهداف بشكل أسهل من خلال تفضيلات ثنائية (Pairwise Preferences) عوضًا عن المكافآت العددية؟! هذا السؤال يدفع الباحثين للتعمق في آفاق جديدة من التعلم المعزز.

لقد حصلت طرق التعلم المعزز التي تستخدم التفضيلات الثنائية على اهتمام متزايد، ولكنها تواجه صعوبات في المسائل التي تتضمن فترات زمنية طويلة، كما تفتقر إلى الضمانات حول أداء السياسات ماركوفية مقارنة بالسياسات المعتمدة على التاريخ. لذلك، يقدم الباحثون نموذج 'مسابقة اتخاذ القرار ماركوف' كإطار جديد لتطبيق التعلم المعزز باستخدام التفضيلات الثنائية.

من خلال هذا النموذج، تم إثبات أن السياسات الثابتة (Stationary Markov Policies) تعتبر الأمثل بين جميع السياسات المعتمدة على التاريخ، كما أُثبت أن حل مسابقة اتخاذ القرار ماركوف بدقة يقع ضمن فئة P، مما يعني إمكانية الوصول للحل بشكل فعال. بالإضافة إلى ذلك، تم تطوير خوارزمية تكرارية بسيطة تظهر سرعة تقاربها نحو سياسة مثلى بمعدل تحت الخطي.

في ختام الدراسة، تكشف النتائج عن تفوق الخوارزمية المقترحة على المعايير السابقة في المشكلات عالية الأبعاد مع فترات زمنية طويلة، حيث أثبتت قدرتها العالية على التعلم الفعّال. هذه الأبحاث تمثل خطوة ممتازة نحو تعزيز التطبيقات العملية لتقنيات التعلّم المعزز في جميع مجالات الذكاء الاصطناعي.