في عالم الذكاء الاصطناعي، يُعتبر [تعلم التعزيز](/tag/[تعلم](/tag/تعلم)-التعزيز) أثناء الاختبار (Test-time [Reinforcement Learning](/tag/reinforcement-learning) - TTRL) من [الأدوات](/tag/الأدوات) القوية التي تُستخدم لتعزيز [دقة النماذج](/tag/[دقة](/tag/دقة)-[النماذج](/tag/النماذج)) على [معايير](/tag/معايير) معينة. لكن ماذا يحدث عندما تخطئ الأغلبية في التصويت؟
أظهرت [الدراسات الحديثة](/tag/الدراسات-الحديثة) أن هذه [التقنية](/tag/التقنية) قد تؤدي إلى مكاسب [دقة](/tag/دقة) كبيرة، لكن هل هذه المكاسب تعكس تعلّمًا حقيقيًا أم أنها مجرد نتائج مضللة؟ تكشف [الأبحاث](/tag/الأبحاث) أن معظم هذه المكاسب ناتجة عن [تحسين](/tag/تحسين) مشاكل يُمكن حلها بالفعل، في حين أن المشاكل التي تحيد عن الإجابات الصحيحة تفوق تلك التي تُعالج بشكل صحيح.
ويُظهِر [التحليل](/tag/التحليل) المُستند إلى [تتبع](/tag/تتبع) المشاكل أن [إشارات](/tag/إشارات) الإجابة الصحيحة في المشاكل ذات القدرات المنخفضة تبقى فعالة لفترة وجيزة قبل أن تُختَفَى بشكل دائم، وهو ما أطلق عليه الباحثون "نافذة انقراض الإجابة الصحيحة (Correct-Answer Extinction Window)". وعليه، فإنهم قدموا إطار [عمل](/tag/عمل) [جديد](/tag/جديد) يُسمى 'TTRL-Guard'، والذي يتضمن ثلاث [آليات](/tag/آليات) تستهدف نافذة الانقراض:
1. **تحجيم [المكافآت](/tag/المكافآت) المعتمدة على معدل التحويل (Flip-Rate-Aware Reward Scaling - FRS)**: تقلل [المكافآت](/tag/المكافآت) للمُعدل المنخفض لتجنب [التحديثات](/tag/التحديثات) المهددة.
2. **العينة المحافِظة على الأقلية (Minority-Preserving [Sampling](/tag/sampling) - MPS)**: تُحافظ على [إشارات](/tag/إشارات) التدرج من الإجابات الصحيحة الأقلية.
3. **التحديثات النادرة المشروطة بالمخاطر (Risk-Conditioned Sparse Updatings - RCSU)**: تُوقف [التحديثات](/tag/التحديثات) في المشاكل المتطرفة.
أظهرت التجارب، التي أُجريت على ثلاثة [نماذج](/tag/نماذج) وأربعة معايير، أن 'TTRL-Guard' يحقق أفضل معدل D عند الاختبار الأول 'pass@1' على كل من Qwen2.5-7B-Instruct وQwen3-4B، بالإضافة إلى [تحسين](/tag/تحسين) نسبي بنسبة +54% مقارنة بـ TTRL في AIME 2025.
إذاً، كيف يُمكن أن يؤثر [تصويت](/tag/تصويت) الأغلبية على تقدمنا في مجال [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي)؟ ما رأيكم في هذا الإطار الجديد؟ شاركونا في [التعليقات](/tag/التعليقات)!
كيف يؤثر التصويت الخاطئ على تعلم التعزيز في وقت الاختبار؟ اكتشف الصندوق السري لتعلم الآلة
توصل الباحثون إلى أن تصويت الأغلبية في تعلم التعزيز أثناء الاختبار يمكن أن يؤدي إلى نتائج مضللة. من خلال تقديم إطار عمل جديد يُعرف بـ 'TTRL-Guard'، بات بإمكانهم تحسين دقة الأداء. انضموا إلينا لاستكشاف هذا التطور المثير!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
