في عالم الذكاء الاصطناعي، تسعى الفرق البحثية باستمرار لإيجاد طرق جديدة لتحسين أداء الوكلاء الذكيين، وخاصة تلك التي تتطلب تفاعلات طويلة الأمد. في هذا السياق، تم تقديم نموذج جديد يدعى ATOD (Annealed Turn-aware On-policy Distillation)، الذي يعد بمثابة طفرة في معالجة التعلم الذاتي الوكلات الذكية.
تكمن فكرة نموذج ATOD في دمج تقنيات التعلم عن طريق تقليل الفجوة بين أداء الطالب والمعلم. حيث يقوم هذا النموذج باستخدام آلية تدعى On-policy distillation (OPD) في البداية، مما يسمح بتوجيه مكثف من المعلم نحو نموذج الطالب. لكن، عادةً ما تقل المكاسب عندما يقترب أداء الطالب من أداء المعلم، مما يحد من أداء النموذج النهائي.
لكن نموذج ATOD طوّر منهجية هجينة، حيث يبدأ بالاستفادة من OPD لتعزيز السلوك، ومن ثم ينتقل تدريجيًا إلى تقنيات التعلم التعزيزي (Reinforcement learning - RL) لتعزيز الاستكشاف وتحسين المكافآت. ومن خلال استخدام جدول زمني مدروس يجمع بين الأسلوبين، يحقق نموذج ATOD نجاحًا ملحوظًا.
علاوة على ذلك، تم تقديم تقنية جديدة تعرف باسم Turn-level Disagreement-Uncertainty Reweighting (T-DUR) التي تعزز من أهمية بعض الأدوار لتحقيق إشراف كثيف عبر مسارات طويلة. وقد أثبتت التجارب على منصات متعددة مثل ALFWorld وWebShop وSearch-QA أن ATOD يتفوق بجدارة على النماذج المنافسة، محققًا زيادة في معدل النجاح بمقدار 3.03 نقطة مقارنةً بـ OPD، و23.62 نقطة مقارنةً بـ GRPO، مع تجاوز نموذج المعلم بمقدار 2.16 نقطة.
غني عن القول، أن هذا البحث يمثل خطوة مهمة نحو تحسين استراتيجيات التدريب للأجهزة الذكية، مما يفتح المجال لاستكشافات جديدة في عالم الذكاء الاصطناعي. ما رأيكم في هذا النموذج الثوري؟ شاركونا آراءكم وتجاربكم في التعليقات!
تطوير نموذج ATOD: ثورة في تدريب الوكلاء الذكيين لتحقيق أداء متفوق!
تمكن فريق البحث من تقديم نموذج ATOD الذي يجمع بين تقنيات التدريبات المتقدمة لتحسين أداء الوكلاء الذكيين. يُعتبر هذا النموذج نقلة نوعية في قدرات التعلم الذاتي للوكلاء، مُحققًا نتائج مذهلة في مختلف المهام التفاعلية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
