تعتبر تقنيات تنظيم Kullback-Leibler (KL) من الأدوات البارزة في مجال اتخاذ القرارات غير المتصلة، حيث تقدم فوائد متعددة تدفع الباحثين لاستكشاف تعقيد العينة في سياق التعلم غير المتصل. ولحد الآن، لا يزال التعقيد الدقيق للعينة في التعلم غير المتصل من خلال تنظيم KL بحاجة إلى توضيح كامل.
في ورقة بحثية جديدة، تم دراسة هذا الموضوع في إطار الأذرع المتعددة (Multi-Armed Bandits - MABs). توصل الباحثون إلى تحليل متعمق لتقنية KL-PCB (Zhao et al., 2026)، حيث تمكنوا من إثبات أن هذه الطريقة تحقق تعقيد عينة متساوي تقريباً قدره $\tilde{O}(\eta SAC^{\pi^{*}} / \epsilon)$ تحت تنظيم كبير حيث $\eta = \tilde{O}(\epsilon^{-1})$. بينما في حالة التنظيم الصغير، يظهر تعقيد عينة يساوي $\tilde{\Omega}(SAC^{\pi^{*}} / \epsilon^{2})$، حيث $\eta = \tilde{\Omega}(\epsilon^{-1})$.
في هذا الإطار، تم استخدام عدة متغيرات مثل عدد السياقات ($S$) وعدد الأذرع ($A$) ومعامل تغطية السياسة عند السياسة المثلى $C^{\pi^{*}}$ والحد الأدنى المرغوب فيه من الأداء (\epsilon).
الأبحاث لا تتوقف هنا، حيث تم تقديم مجموعة من الحدود الدنيا لتعقيد العينة، والتي تتماشى مع الحدود العليا عبر مجموعة كاملة من مستويات التنظيم. هذه النتائج تعطي صورة أوضح حول خصائص الأذرع المتعددة غير المتصلة مع تنظيم Kullback-Leibler، مما يساعد في تحسين أدائنا في القرارات غير المتصلة.
استكشاف تعقيد العينة الأمثل للمعالجة غير المتصلة لمشكلة الأذرع المتعددة مع تنظيم Kullback-Leibler!
دراسة جديدة تكشف الغموض حول تعقيد العينة لنماذج الأذرع المتعددة في سياق التعلم غير المتصل بتقنية Kullback-Leibler. النتائج تؤكد أهمية التنظيم لتحقيق أفضل أداء في استراتيجيات اتخاذ القرار.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
