ابتكار جديد في التعلم المعزز: إعادة تدوير الاستفسارات الصفرية لتحسين أداء وكيل البحث

Q: ما هو موضوع مقال "ابتكار جديد في التعلم المعزز: إعادة تدوير الاستفسارات الصفرية لتحسين أداء وكيل البحث"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "ابتكار جديد في التعلم المعزز: إعادة تدوير الاستفسارات الصفرية لتحسين أداء وكيل البحث" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

أصبحت الخوارزميات المستندة إلى GRPO (Generalized Randomized Policy Optimization) الخيار القياسي لتدريب وكلاء البحث الذين يعتمدون على المكافآت السلوكية فقط. تعتمد هذه الخوارزميات على مبدأ أن الاستفسار يساهم في تحديث المعلمات فقط عندما يكون مجموعة النتائج مختلطة بين النجاح والفشل. ولكن ماذا عن المجموعات التي تشتمل على نتائج صحيحة بالكامل أو غير صحيحة بالكامل؟ تُعتبر هذه المجموعات صفرية التباين، وتُهدر تكلفة الدوران بشكل فعّال.

تناولت الأبحاث السابقة هذه المسألة من زاوية ثابتة، إما بتجاهل هذه المجموعات أو تصفيتها مسبقًا. لكننا نفترض أن الاستفسارات تتقلب بين الحالات صفرية التباين وحالات تحمل الإشارات أثناء تطور السياسة خلال التدريب. استنادًا إلى هذه الفكرة، نقوم باقتراح مفهوم "إعادة تدوير الاستفسارات"، الذي يعيد المجموعات صفرية التباين إلى مجموعة قابلة للتغيير لإعادة أخذ العينات في المستقبل، مما يتيح توزيع تدريب فعّال يتطور جنبًا إلى جنب مع السياسة.

تظهر تجربتنا أن النموذج الذي يتكون من 1.7 مليار معلمة تم تدريبه على بيانات صناعية يمكن أن يصل إلى دقة متوسط 66.0 في اختبارات الجودة متعددة الخطوات، متفوقًا أو معادلًا لأنظمة تصل إلى 7 مليارات معلمة تم تدريبها على إشراف مستمد من المعايير. تكشف تحليل أنماط إعادة التدوير أن الاستفسارات المعاد تدويرها توفر نحو ثلاثة أرباع الدفعة الفعالة بحلول نهاية التدريب، مع تقاسم المساهمات بين تعافي السياسة وتحول السياسة. هذا الابتكار قد يكون نقطة تحول في كيفية تدريب وكلاء البحث وجعلهم أكثر كفاءة.

كيف ترون هذه التطورات في مجال التعلم المعزز؟ شاركونا آراءكم في التعليقات.

ابتكار جديد في التعلم المعزز: إعادة تدوير الاستفسارات الصفرية لتحسين أداء وكيل البحث

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة جديدة في عالم البرمجة: شركة Gitar الناشئة تؤمن الكود باستخدام الذكاء الاصطناعي!

جوجل تطلق ميزة الذكاء الشخصي جيمني في الهند: تجربة مخصصة في متناول يدك!

أوبن أيه آي تستحوذ على شركة هيرو لتكنولوجيا التمويل الشخصي: خطوة نحو التخطيط المالي الذكي!