في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) المتقدم، يُعتبر [تدريب](/tag/تدريب) [وكلاء](/tag/وكلاء) [اللغة](/tag/اللغة) (Language Agents) على [التعلم من الخبرات](/tag/[التعلم](/tag/التعلم)-من-الخبرات) تحولًا جذريًا. فبينما يمكن لهذه [النماذج](/tag/النماذج) التكيُّف مع تجاربها، فإن الأساليب التقليدية المعتمدة على التأمل كانت قادرة فقط على [التصحيح الذاتي](/tag/التصحيح-الذاتي) ضمن [سياقات](/tag/سياقات) معينة. ولكن، ماذا لو كان من الممكن استخلاص تلك الخبرات وتحويلها إلى دروسReusable lessons تُحسِّن [الأداء](/tag/الأداء) في مهام جديدة غير مرئية؟
لإجابة هذا السؤال، نقدم إطار [عمل](/tag/عمل) "[التدريب](/tag/التدريب) في [السياق](/tag/السياق)" (In-context Training – ICT) الذي يتيح [تقييم](/tag/تقييم) [التحسين](/tag/التحسين) الذاتي [عبر](/tag/عبر) المهام لوكلاء [اللغة](/tag/اللغة). في هذا الإطار، يقوم [نموذج](/tag/نموذج) التأمل بمراقبة المسارات التي تجمعها [نموذج](/tag/نموذج) الفاعل، ليولد مطالبات نظامية تهدف إلى [تحسين أداء](/tag/[تحسين](/tag/تحسين)-[أداء](/tag/أداء)) الفاعل في المهام غير المرئية.
نعرض أيضًا مسار [التدريب](/tag/التدريب) القائم على التعزيز (RL-based training pipeline) الذي يتعلم من هذه الانعكاسات بشكل مباشر دون الحاجة إلى أمثلة بشرية. وبفضل اختباراتنا في بيئات مثل ALFWorld وMiniHack، أظهرت النموذج المدرب قدرة واضحة على التفوق على [النماذج](/tag/النماذج) غير المدربة في معظم [عائلات](/tag/عائلات) المهام المحتفظ بها، مما يدل على أن القدرة على [التعلم](/tag/التعلم) من [التجارب](/tag/التجارب) يمكن تعلمها بحد ذاتها.
الأمر المثير هو أنه في بعض الحالات، تمكنا من ملاحظة [تعميم](/tag/تعميم) [الأداء](/tag/الأداء) خارج المعيار الذي تم [تدريب النموذج](/tag/[تدريب](/tag/تدريب)-النموذج) عليه، ليظهر تحسنًا ملحوظًا حتى في بيئات مختلفة تمامًا.
وبالإضافة إلى ذلك، نقدم "MetaGym"، [مكتبة بايثون](/tag/مكتبة-[بايثون](/tag/بايثون)) عامة تهدف إلى [بناء](/tag/بناء) بيئات جديدة لتمكين [الأبحاث](/tag/الأبحاث) المستقبلية حول [وكلاء](/tag/وكلاء) [اللغة](/tag/اللغة) الذين يتحسنون ذاتيًا.
ما رأيكم في إمكانية استخدام هذه [التقنيات الجديدة](/tag/التقنيات-الجديدة) لتحسين [الأداء](/tag/الأداء) في مجالات أخرى؟ شاركونا في [التعليقات](/tag/التعليقات).
ثورة في الذكاء الاصطناعي: تدريب وكلاء اللغة لتعلم الخبرات والتكيف الفوري!
تقدم الأبحاث الجديدة في الذكاء الاصطناعي إطاراً مبتكراً لتدريب وكلاء اللغة لتعلم من تجاربهم في البيئات التفاعلية. هذا التطور يعد ثورة في قدرة النماذج على تحسين أدائها في مهام المستقبل.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
