حققت [تقنية](/tag/تقنية) [RankQ](/tag/rankq) نقلة نوعية في مجال [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) ([Reinforcement Learning](/tag/reinforcement-learning)) من خلال [تحسين الكفاءة](/tag/[تحسين](/tag/تحسين)-[الكفاءة](/tag/الكفاءة)) معتمدةً على [مجموعات البيانات](/tag/مجموعات-[البيانات](/tag/البيانات)) السابقة. تقليديًا، كان هناك تحدٍ كبير يتعلق بدقة [تقييم](/tag/تقييم) [الأعمال](/tag/الأعمال) ضمن الفضاءات الكبرى للحالات والأفعال، خاصة عندما تكون تغطية [مجموعة البيانات](/tag/مجموعة-[البيانات](/tag/البيانات)) محدودة. الأمر الجميل في [RankQ](/tag/rankq) هو أنها لا تكتفي بوضع أوزان منخفضة على الأفعال غير الموجودة في البيانات، مما كان يُعرقل غالبًا [تحسين السياسات](/tag/[تحسين](/tag/تحسين)-[السياسات](/tag/السياسات)) [عبر](/tag/عبر) الإنترنت، ولكنها تقدم أسلوبًا قويًا لتحسين التنفيذ [عبر](/tag/عبر) [التعلم الذاتي](/tag/[التعلم](/tag/التعلم)-الذاتي).|
من خلال استخدام فقدان [تصنيف](/tag/تصنيف) متعدد مصنف ذاتيًا، تجري [RankQ](/tag/rankq) تعديلًا على [التعلم](/tag/التعلم) الزمني-الفرق (Temporal-Difference Learning) وتفرض ترتيبًا هيكليًا للعمل. بدلاً من تأديب الأفعال غير المرئية بشكل موحد، تتعلم [RankQ](/tag/rankq) [تفضيلات](/tag/تفضيلات) نسبية للأفعال، مما يوجه تدرجات Q [نحو](/tag/نحو) [سلوكيات](/tag/سلوكيات) ذات جودة أعلى. [عبر](/tag/عبر) [اختبارات](/tag/اختبارات) D4RL ذات [المكافآت](/tag/المكافآت) النادرة، أظهرت [RankQ](/tag/rankq) أداءً مذهلاً يجعلها تنافس أو تتفوق على سبع طرق سابقة.|
في مجال [التعلم](/tag/التعلم) الموجه بالرؤية للروبوتات، تمكنت [RankQ](/tag/rankq) من ضبط [نموذج [الرؤية](/tag/الرؤية)-اللغة](/tag/[نموذج](/tag/نموذج)-[الرؤية](/tag/الرؤية)-[اللغة](/tag/اللغة))-الإجراء (Vision-Language-Action [Model](/tag/model)) المدرب مسبقًا بشكل فعال في وضع [البيانات](/tag/البيانات) المنخفض، حيث حققت معدل [نجاح](/tag/نجاح) في [المحاكاة](/tag/المحاكاة) أعلى بنسبة 42.7% مقارنة بأفضل الطرق الأخرى. وفي سيناريو [البيانات](/tag/البيانات) العالية، حسنت [RankQ](/tag/rankq) [أداء](/tag/أداء) [المحاكاة](/tag/المحاكاة) بنسبة 13.7% مقارنة بأفضل الطرق، رغم أنها نجحت أيضًا في [تحقيق](/tag/تحقيق) [نقل](/tag/نقل) ملموس من [المحاكاة](/tag/المحاكاة) إلى الواقع، حيث زاد معدل [نجاح](/tag/نجاح) تكديس المكعبات في العالم الحقيقي من 43.1% إلى 88.9% مقارنةً بالأداء الأولي.
راكنكيو: ثورة التعلم المعزز منoffline إلى online عبر تصنيف الأعمال الذاتية!
تقدم تقنية RankQ طريقة جديدة ومبتكرة في التعلم المعزز تسمح بتحسين الكفاءة باستخدام مجموعات البيانات المجمعة مسبقًا. تشير النتائج إلى تفوقها على أساليب سابقة، مما يفتح آفاقًا جديدة في التعلم الآلي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
