في عالم الذكاء الاصطناعي، يعد التعلم من ردود فعل البشر (Reinforcement Learning from Human Feedback - RLHF) أحد التقنيات الأساسية التي ساعدت في تحسين أداء نماذج اللغة الكبيرة بعد التدريب. وبينما كانت معظم الطرق المعتمدة تركز على تنظيم انحدار KL العكسي، بدأت الدراسات التجريبية مؤخرًا في استكشاف الفروق البديلة، مثل الفروق الأمامية (forward KL) أو مربع كاي (chi-squared) كخطط تنظيمية في التعلم المعزز.

لكن ما يثير الدهشة هو أن الفهم النظري الموحد لتنظيم الفروق العامة (general f-divergence) لا يزال بحاجة إلى المزيد من البحث. لتجاوز هذا التحدي، عرضت دراستنا إطار عمل نظري شامل لتطبيق RLHF عبر الإنترنت مع هدف منظمي يعتمد على الفروق العامة.

بدلًا من معالجة كل دالة فرق على حدة، اعتمدنا منظورًا كليًا يغطي الفئة الكاملة للدوال. واقترحنا خوارزميتين بناءً على مبادئ أخذ عينات متميزة. الأولى توسع مبدأ التفاؤل التقليدي من خلال تقديم مكافأة استكشاف مصممة بعناية، بينما تقدم الثانية طريقة جديدة تستفيد من حساسية السياسة المثلى للمكافآت تحت تنظيم الفروق العامة.

تظهر التحليلات النظرية أنه يمكن تحقيق فقدان (regret) بمعدل O(log T) وفجوة دون المثلى (sub-optimality gap) بمعدل O(1/T)، مما يثبت كفاءة الخوارزميات المقترحة. وبهذا، فإن هذه الدراسة تمثل، إلى أفضل ما نعلم، أول حدود أداء لتنظيم الفروق العامة في تطبيق RLHF عبر الإنترنت.