في عالم الذكاء الاصطناعي، تعتبر المبارزات الثنائية (Dueling Bandits) أحد الأسس الرئيسية في اتخاذ القرار المبني على التفضيلات، ولها تطبيقات حيوية في أنظمة التوصية (Recommender Systems) ومحاذاة نماذج اللغة الكبيرة (Large Language Models). إلا أن معظم الخوارزميات الحالية تعتمد على الافتراض المثالي لردود الفعل الفورية، وهو شرط غالباً ما يُنتهك في السيناريوهات الواقعية، مثل تحسين الطلبات (Prompt Optimization).

تتبع هذه الدراسة الجديدة مساراً مثيراً للتحديات النظرية الناتجة عن حالة الردود المتأخرة. على عكس المبارزات الخطية، فإن مُقدِّرات المبارزات الثنائية تفتقر إلى حلول مغلقة، مما يجعل التكيفات التقليدية غير ذات جدوى. للتغلب على هذا التحدي، قدم الباحثون مفهوم مبارزات ثنائية سياقية مع ردود فعل متأخرة (Contextual Dueling Bandits with Stochastic Delayed Feedback) وطوروا خوارزميتين جديدتين: المبارزات الثنائية الخطية (LDB-DF) والمبارزات الثنائية العصبية (NDB-DF).

يتمحور أسلوبهم حول مُقدِّر جديد يدمج آلية وزن الاحتمالات العكسية (Inverse Probability Weighting - IPW) مباشرةً في دالة الخسارة، مما يضمن تصحيحاً غير متحيز للردود المتأخرة أو المفقودة. وقد أجريت تحليلات نظرية شاملة، موضحة حد أسود من O(d*sqrt(T)) للإحباط في الإعداد الخطي وضمانات تحت الخطية في الإعداد العصبي. كما أظهرت التجارب الواسعة على كل من مجموعات البيانات المحاكية والحقيقية فعالية هذه الأساليب الجديدة.

في ضوء هذه الاكتشافات، يبقى السؤال: كيف يمكن أن تؤثر تقنيات المبارزات الثنائية مع ردود فعل مؤجلة على مستقبل أنظمة التوصية والذكاء الاصطناعي بشكل عام؟