راكنكيو: ثورة التعلم المعزز منoffline إلى online عبر تصنيف الأعمال الذاتية!

Q: ما هو موضوع مقال "راكنكيو: ثورة التعلم المعزز منoffline إلى online عبر تصنيف الأعمال الذاتية!"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "راكنكيو: ثورة التعلم المعزز منoffline إلى online عبر تصنيف الأعمال الذاتية!" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

حققت تقنية RankQ نقلة نوعية في مجال التعلم المعزز (Reinforcement Learning) من خلال تحسين الكفاءة معتمدةً على مجموعات البيانات السابقة. تقليديًا، كان هناك تحدٍ كبير يتعلق بدقة تقييم الأعمال ضمن الفضاءات الكبرى للحالات والأفعال، خاصة عندما تكون تغطية مجموعة البيانات محدودة. الأمر الجميل في RankQ هو أنها لا تكتفي بوضع أوزان منخفضة على الأفعال غير الموجودة في البيانات، مما كان يُعرقل غالبًا تحسين السياسات عبر الإنترنت، ولكنها تقدم أسلوبًا قويًا لتحسين التنفيذ عبر التعلم الذاتي.|

من خلال استخدام فقدان تصنيف متعدد مصنف ذاتيًا، تجري RankQ تعديلًا على التعلم الزمني-الفرق (Temporal-Difference Learning) وتفرض ترتيبًا هيكليًا للعمل. بدلاً من تأديب الأفعال غير المرئية بشكل موحد، تتعلم RankQ تفضيلات نسبية للأفعال، مما يوجه تدرجات Q نحو سلوكيات ذات جودة أعلى. عبر اختبارات D4RL ذات المكافآت النادرة، أظهرت RankQ أداءً مذهلاً يجعلها تنافس أو تتفوق على سبع طرق سابقة.|

في مجال التعلم الموجه بالرؤية للروبوتات، تمكنت RankQ من ضبط نموذج الرؤية-اللغة-الإجراء (Vision-Language-Action Model) المدرب مسبقًا بشكل فعال في وضع البيانات المنخفض، حيث حققت معدل نجاح في المحاكاة أعلى بنسبة 42.7% مقارنة بأفضل الطرق الأخرى. وفي سيناريو البيانات العالية، حسنت RankQ أداء المحاكاة بنسبة 13.7% مقارنة بأفضل الطرق، رغم أنها نجحت أيضًا في تحقيق نقل ملموس من المحاكاة إلى الواقع، حيث زاد معدل نجاح تكديس المكعبات في العالم الحقيقي من 43.1% إلى 88.9% مقارنةً بالأداء الأولي.

راكنكيو: ثورة التعلم المعزز منoffline إلى online عبر تصنيف الأعمال الذاتية!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

العمال المستقلون: كيف يدرّب الأفراد الروبوتات البشرية من منازلهم؟

قريباً: روبوت إنساني مُذهل بسعر 4,370 دولار على علي إكسبرس!

اكتشف كيف تُحدث ChatGPT ثورة في أداء فرق العمليات!