في عالم الذكاء الاصطناعي، يشكل التعلم المعزز وقت الاختبار (TTRL) أحد الاتجاهات المبتكرة التي تتيح تعديل النماذج في الوقت الحقيقي. ومع ذلك، يواجه هذا النظام تحديات خطيرة تتمثل في vulnerability للإشارات المضللة الناتجة عن ضجيج التصنيف. من خلال دراسة تجريبية مثيرة، توصل الباحثون إلى أن الاستجابات المتوسطة الثبات تشكل منطقة غموض وتساهم في تزايد ضجيج المكافآت.
النتيجة الأكثر إثارة هي أن هذه الإشارات المضللة يمكن أن تتزايد بشكل أكبر من خلال تقدير ميزة نسبية جماعية. وللحد من هذه المشكلة، تم اقتراح إطار عمل موحد يسمى "التعلم المعزز وقت الاختبار المنقي (DDRL)". يعتمد هذا النظام على استراتيجية عينة مستندة إلى التردد لاستبعاد العينات الغامضة مع الحفاظ على مجموعة من الأمثلة الإيجابية والسلبية المتوازنة.
ثم يقوم DDRL بتبني تقدير ميزات مُنقَّاة باستخدام مزايا ثابتة، مما يزيل التحيز الذي تسببه تحسين السياسة النسبية الجماعية. أخيرًا، يدمج DDRL مرحلة تحسين قائمة على الإجماع، والتي تستخدم مجموعة البيانات المُعطلة لتسهيل تحديثات النماذج وجعلها أكثر استقرارًا.
أظهرت التجارب التي أُجريت على ثلاثة نماذج لغوية كبيرة عبر مجموعة متنوعة من مراجع الرياضيات أن DDRL يتفوق باستمرار على الأسس الحالية للتعلم المعزز وقت الاختبار. يثير هذا الابتكار حماس الباحثين والمطورين، حيث سيتم قريبًا من نشر الرمز الخاص به لتحقيق الاستفادة القصوى من آثاره.
كيف نستثمر الذكاء الاصطناعي في تعزيز التعلم المعزز وتفادي التشويش الضار؟
تظهر الدراسات أن التعلم المعزز وقت الاختبار (TTRL) يواجه تحديات جراء إشارات تحسين مضللة. نقدم إطار عمل جديد يهدف إلى تقليل هذه التشويشات لتحقيق نتائج أفضل في معالجة مسائل الرياضيات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
