في عالم الذكاء الاصطناعي، يتزايد أهمية تدريب وكلاء التفاعل على الويب عبر التعلم بالاقتداء (Imitation Learning) من مسارات الخبراء. ومع ذلك، تظل مشكلة تحديد التوقيت المثالي لتدخل الخبراء من أبرز التحديات في هذا السياق. فالتدخل المتأخر قد يؤدي إلى تراكم الأخطاء في المراحل الأولى، مما يدفع حالة الصفحة إلى وضع لا يمكن استرداده، في حين أن التدخل المبكر أو المفرط يجعل الوكيل يعتمد بشكل زائد على سياسات الخبراء، مما يحصر النموذج في حلول محليّة ذات مسارات واحدة وثابتة.
لذا، نُقدّم تصحيح الابتدائية (Speculative Rollback Correction أو SRC)، وهو إطار محاكاة على مستوى الفروع مناسب للبيئات القابلة لإعادة الضبط. يتيح SRC مراجعة الفروع ضمن أفق محدد، حيث ينفذ الطالب مقطعاً قصيراً من الإجراءات قبل مراجعة المعلم. يعمل المعلم على تحديد الانحراف الضار الأول فقط عندما يتعطل التقدم المحلي.
يتضمن هذا الأسلوب الحفاظ على البدايات المفيدة، في حين يتم تصفية النتائج الناجحة بواسطة مدقق صارم وتحفظ في أرشيف خفيف الجودة والتنوع. تقدم البيانات الناتجة دعماً لتحسين الإجراء التالي تحت إشراف التعلم سواءً في التصحيحات المحلية أو المسارات التي نجحت في اجتياز المدقق. على سبيل المثال، في WebArena-Infinity، تمكنت تقنية SRC من جمع 977 مساراً اجتاز المدقق و9,183 مثالًا على الإجراء التالي. كما تعمل المراجعة ذات الأفق الثابت على تحسين توازن التعافي مقابل الاستعلام مقارنة بالمراجعة على مستوى خطوة، مع الاحتفاظ بمجموعة متنوعة من الحلول المعتمدة.
يمكنكم الحصول على الرمز البرمجي الخاص بإطار العمل هذا من خلال الرابط: https://github.com/LongkunHao/SRC_gui_agent، مما يتيح للباحثين والمطورين الاستفادة من هذه التقنية المتقدمة في مشاريعهم الخاصة.
تصحيح ابتدائي لمزج جودة متنوعة: ثورة في محاكاة وكلاء الويب
يشكل تصحيح الابتدائية (Speculative Rollback Correction) تقنية جديدة تتيح لوكلاء الويب التعلم من الأخطاء بذكاء. من خلال إدارة التقييم والتدخلات بشكل فعال، يمكن تحسين التعلم من التجارب السابقة وتفادي الأخطاء القاتلة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
