حققت [تقنية](/tag/تقنية) [RankQ](/tag/rankq) نقلة نوعية في مجال [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) ([Reinforcement Learning](/tag/reinforcement-learning)) من خلال [تحسين الكفاءة](/tag/[تحسين](/tag/تحسين)-[الكفاءة](/tag/الكفاءة)) معتمدةً على [مجموعات البيانات](/tag/مجموعات-[البيانات](/tag/البيانات)) السابقة. تقليديًا، كان هناك تحدٍ كبير يتعلق بدقة [تقييم](/tag/تقييم) [الأعمال](/tag/الأعمال) ضمن الفضاءات الكبرى للحالات والأفعال، خاصة عندما تكون تغطية [مجموعة البيانات](/tag/مجموعة-[البيانات](/tag/البيانات)) محدودة. الأمر الجميل في [RankQ](/tag/rankq) هو أنها لا تكتفي بوضع أوزان منخفضة على الأفعال غير الموجودة في البيانات، مما كان يُعرقل غالبًا [تحسين السياسات](/tag/[تحسين](/tag/تحسين)-[السياسات](/tag/السياسات)) [عبر](/tag/عبر) الإنترنت، ولكنها تقدم أسلوبًا قويًا لتحسين التنفيذ [عبر](/tag/عبر) [التعلم الذاتي](/tag/[التعلم](/tag/التعلم)-الذاتي).|

من خلال استخدام فقدان [تصنيف](/tag/تصنيف) متعدد مصنف ذاتيًا، تجري [RankQ](/tag/rankq) تعديلًا على [التعلم](/tag/التعلم) الزمني-الفرق (Temporal-Difference Learning) وتفرض ترتيبًا هيكليًا للعمل. بدلاً من تأديب الأفعال غير المرئية بشكل موحد، تتعلم [RankQ](/tag/rankq) [تفضيلات](/tag/تفضيلات) نسبية للأفعال، مما يوجه تدرجات Q [نحو](/tag/نحو) [سلوكيات](/tag/سلوكيات) ذات جودة أعلى. [عبر](/tag/عبر) [اختبارات](/tag/اختبارات) D4RL ذات [المكافآت](/tag/المكافآت) النادرة، أظهرت [RankQ](/tag/rankq) أداءً مذهلاً يجعلها تنافس أو تتفوق على سبع طرق سابقة.|

في مجال [التعلم](/tag/التعلم) الموجه بالرؤية للروبوتات، تمكنت [RankQ](/tag/rankq) من ضبط [نموذج [الرؤية](/tag/الرؤية)-اللغة](/tag/[نموذج](/tag/نموذج)-[الرؤية](/tag/الرؤية)-[اللغة](/tag/اللغة))-الإجراء (Vision-Language-Action [Model](/tag/model)) المدرب مسبقًا بشكل فعال في وضع [البيانات](/tag/البيانات) المنخفض، حيث حققت معدل [نجاح](/tag/نجاح) في [المحاكاة](/tag/المحاكاة) أعلى بنسبة 42.7% مقارنة بأفضل الطرق الأخرى. وفي سيناريو [البيانات](/tag/البيانات) العالية، حسنت [RankQ](/tag/rankq) [أداء](/tag/أداء) [المحاكاة](/tag/المحاكاة) بنسبة 13.7% مقارنة بأفضل الطرق، رغم أنها نجحت أيضًا في [تحقيق](/tag/تحقيق) [نقل](/tag/نقل) ملموس من [المحاكاة](/tag/المحاكاة) إلى الواقع، حيث زاد معدل [نجاح](/tag/نجاح) تكديس المكعبات في العالم الحقيقي من 43.1% إلى 88.9% مقارنةً بالأداء الأولي.