🏷️ #تعلم تعزيزي

51 مقال

دليل مبتكر لتحسين التعلم التعزيزي: اكتشف DADiff

دليل مبتكر لتحسين التعلم التعزيزي: اكتشف DADiff

أركايف للذكاءمنذ 6 ساعة

إطلاق حدود عامة غير فارغة لتعميم التعلم التعزيزي مع مكافآت قابلة للتحقق

إطلاق حدود عامة غير فارغة لتعميم التعلم التعزيزي مع مكافآت قابلة للتحقق

أركايف للذكاءمنذ 3 يوم

تعرف على SOReL: ثورة جديدة في التعلم التعزيزي Offline بالكامل

تعرف على SOReL: ثورة جديدة في التعلم التعزيزي Offline بالكامل

أركايف للذكاءمنذ 3 يوم

OOD-RL-Bench: الإطار الثوري لاكتشاف الحالات النادرة في تعلم التعزيز!

OOD-RL-Bench: الإطار الثوري لاكتشاف الحالات النادرة في تعلم التعزيز!

أركايف للذكاءمنذ 5 يوم

نسخة سياسية جديدة تعتمد على تحسينات مثبتة: ثورة في منهجيات التعلم التعزيزي لنماذج اللغة الكبيرة!

نسخة سياسية جديدة تعتمد على تحسينات مثبتة: ثورة في منهجيات التعلم التعزيزي لنماذج اللغة الكبيرة!

أركايف للذكاءمنذ 12 يوم

لا تدع المكاسب تتلاشى: تحليل الوزن المتغير للسياسات في التعلم التعزيزي!

لا تدع المكاسب تتلاشى: تحليل الوزن المتغير للسياسات في التعلم التعزيزي!

أركايف للذكاءمنذ 17 يوم

تعلم الإمساك الماهر من توجيه تصنيفي محدود: كيف أحدثت تقنية GRIT ثورة في التحكم بالروبوتات!

تعلم الإمساك الماهر من توجيه تصنيفي محدود: كيف أحدثت تقنية GRIT ثورة في التحكم بالروبوتات!

أركايف للذكاءمنذ 19 يوم

تطوير نماذج ذكاء اصطناعي موجهة لسلوكيات إيجابية: آفاق جديدة لنجاح مستدام

تطوير نماذج ذكاء اصطناعي موجهة لسلوكيات إيجابية: آفاق جديدة لنجاح مستدام

أركايف للذكاءمنذ 26 يوم

ثورة التعلم التعزيزي: كيف يمكن للذكاء الاصطناعي تحسين عملاء الكمبيوتر ذاتياً؟

ثورة التعلم التعزيزي: كيف يمكن للذكاء الاصطناعي تحسين عملاء الكمبيوتر ذاتياً؟

أركايف للذكاءمنذ 26 يوم

أهمية الجيولوجيا الوزن-space في تدريب التعلم التعزيزي الغير متصل: تحليل مثير!

أهمية الجيولوجيا الوزن-space في تدريب التعلم التعزيزي الغير متصل: تحليل مثير!

أركايف للذكاءمنذ 26 يوم

أداء مذهل للذكاء الاصطناعي: إدارة استراتيجية هرمية في ألعاب متعددة الوكلاء!

أداء مذهل للذكاء الاصطناعي: إدارة استراتيجية هرمية في ألعاب متعددة الوكلاء!

أركايف للذكاءمنذ 1 شهر

تحديات جديدة في أمان الذكاء الاصطناعي: كيف تتلاعب وكالات نماذج اللغة بالمكافآت؟

تحديات جديدة في أمان الذكاء الاصطناعي: كيف تتلاعب وكالات نماذج اللغة بالمكافآت؟

أركايف للذكاءمنذ 1 شهر

سيطرة على الأمن: "PolicyGuard" للدفاع ضد هجمات المهاجمين لعمليات التعلم التعزيزي

أخلاقيات الذكاء الاصطناعي

سيطرة على الأمن: "PolicyGuard" للدفاع ضد هجمات المهاجمين لعمليات التعلم التعزيزي

أركايف للذكاءمنذ 1 شهر

تحويل النماذج: كيف يعيد التجديد مرونة التعلم من أجل تعزيز فعالية التعلم التعزيزي؟

تحويل النماذج: كيف يعيد التجديد مرونة التعلم من أجل تعزيز فعالية التعلم التعزيزي؟

أركايف للذكاءمنذ 1 شهر

استكشاف عدم اليقين في المكافآت: خطوة جديدة في التعلم التعزيزي من خلال التغذية الراجعة البشرية

استكشاف عدم اليقين في المكافآت: خطوة جديدة في التعلم التعزيزي من خلال التغذية الراجعة البشرية

أركايف للذكاءمنذ 1 شهر

كيف يتعلم نموذج الذكاء الاصطناعي الأخطاء قبل أي تدريب: استكشاف فحص RLVR!

كيف يتعلم نموذج الذكاء الاصطناعي الأخطاء قبل أي تدريب: استكشاف فحص RLVR!

أركايف للذكاءمنذ 1 شهر

SAAS: الابتكار الجديد في التعلم التعزيزي لإدارة البحث المفرط في الأنظمة الذكية!

SAAS: الابتكار الجديد في التعلم التعزيزي لإدارة البحث المفرط في الأنظمة الذكية!

أركايف للذكاءمنذ 1 شهر

استثمر في نتائجك: استراتيجية توزيع الموارد في التعلم التعزيزي بعد التدريب

استثمر في نتائجك: استراتيجية توزيع الموارد في التعلم التعزيزي بعد التدريب

أركايف للذكاءمنذ 1 شهر

تطوير UnityMAS-O: إطار عمل مبتكر لتحسين أنظمة الوكلاء المتعددة المعتمدة على نماذج اللغات الضخمة

تطوير UnityMAS-O: إطار عمل مبتكر لتحسين أنظمة الوكلاء المتعددة المعتمدة على نماذج اللغات الضخمة

أركايف للذكاءمنذ 1 شهر

ثورة في التعلم التعزيزي: إطار جديد لمقارنة الوحدات وإشكالية الطول

ثورة في التعلم التعزيزي: إطار جديد لمقارنة الوحدات وإشكالية الطول

أركايف للذكاءمنذ 1 شهر

1 / 3التالي →