في عالم الذكاء الاصطناعي، تُعد القرارات التسلسلية جزءًا أساسيًا من الاستراتيجيات المعقدة. ومع ذلك، تبقى هذه القرارات نادرًا ما يتم تقييمها بشكلٍ مستقل، حيث تؤثر كل خيار استراتيجي على السياق الذي يُتخذ بناءً عليه القرارات التالية. في هذا الإطار، تم تقديم مفهوم جديد يُعرف باسم Bandits السببية المتداخلة (NCCBs) لتلبية هذه الحاجة.
يقوم نموذج NCCBs بتحديد مشكلة اتخاذ القرارات على شكل تسلسل هرمي، حيث تؤثر مجموعة الإجراءات في كل مستوى على توزيع السياقات في المستويات اللاحقة. يقدم الباحثون كذلك أسلوبًا مبتكرًا يُسمى تقنية Thompson التكرارية السببية (NCTS)، التي تعتمد على رسم اقتراح واحد لكل حلقة عمل، للتعامل مع المخاطر المحتملة بشكلٍ تكراري.
أحد أبرز النتائج النظرية لهذا البحث هو وجود حد للأضرار المرتبطة بـ PAC-Bayesian، مما يضمن مصداقية سياسة التنفيذ بناءً على البيانات التاريخية بمفردها، سواء بشكلٍ متقطع أو في أي وقت، مما يطرح السؤال: هل يمكننا الوثوق بهذا الوكيل في هذا السياق، وما هو مستوى المخاطر؟
أظهرت التجارب على نموذج SCM التسلسلي أن أداء NCTS يتفوق بشكل كبير على تقنيات أخرى مثل الانحدار المشترك المتكيّف (RFF-GP) عند مواجهة تغييرات غير متوقعة في التوزيع. يساهم هذا النجاح في تعزيز النموذج التكراري من خلال توفير انتقال آمن من أنظمة التحكم التقليدية إلى NCTS، مما يجعل كل مستوى يكتسب موثوقية أكبر عند توفر بيانات جديدة.
في النهاية، يُمكن اعتبار طريقة التبديل التدريجي للسياسات المعتمدة على الالتزام الضماني بمثابة خطوة آمنة نحو تحقيق نشر فعال في التطبيقات الذكية.
استكشاف مبدأ تحسين السياسات المعتمدة على الالتزام الضماني في القرارات التسلسلية المعقدة
تقدم الدراسة نموذجًا مبتكرًا يُعرف باسم Bandits السببية المتداخلة، الذي يربط بين قرارات استراتيجية وتكتيكية في عالم الذكاء الاصطناعي. تصميم قابل للتحقق من المخاطر يمكن أن يحدث ثورة في كيفية اتخاذ القرارات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
