بولى-إي بي أو: نموذج جديد لتعزيز التعلم الاستكشافي في الذكاء الاصطناعي

في عالم الذكاء الاصطناعي، يُعتبر الاستكشاف حجر الزاوية في التعلم من التجربة، حيث يمكّن الوكلاء (Agents) من العثور على حلول لمشاكل معقدة والتعميم على مشكلات جديدة. في بحثنا الجديد، نقدم إطار عمل لنماذج اللغة (Language Models) بعد التدريب، يهدف إلى تعزيز الاستكشاف التفاؤلي ويعزز التآزر بين الاستكشاف والاستغلال. الفكرة الأساسية تتلخص في تدريب نموذج اللغة لتوليد مجموعات من الردود التي تتمتع بالدقة الكلية وفقاً لوظيفة المكافأة وتكون مبتكرة في استراتيجياتها الفكرية.

قمنا بتطوير وصف عام لتحسين نماذج اللغة باستخدام التعلم المعزز (Reinforcement Learning) المعتمد على المجموعات، مما يتيح تكيف خوارزميات التعلم المعزز مع هذا الإعداد من خلال تعديل حساب المزايا. كما نقدم في هذا البحث مفهوم "تحسين سياسة الاستكشاف متعدد الألوان" (Polychromic Exploratory Policy Optimization - Poly-EPO)، الذي يمثل هذا الإطار من خلال هدف يجمع بين الاستكشاف والاستغلال بشكل صريح.

من خلال اختبار مجموعة من معايير الاستدلال، أثبت نموذج Poly-EPO تحسناً في التعميم، مما يتضح من خلال زيادة تغطية pass@$k$، والحفاظ على تنوع أكبر في توليد الأنماط، بالإضافة إلى زيادة فعالية الأداء مع استخدام موارد الحوسبة أثناء الاختبار. هذا الابتكار يبشر بعصر جديد في كيفية تدريب نماذج الذكاء الاصطناعي لتحسين أدائها وجودتها في التعامل مع مشكلات واقعية.

بولى-إي بي أو: نموذج جديد لتعزيز التعلم الاستكشافي في الذكاء الاصطناعي

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

تعرف على ZAYA1-8B: نموذج الذكاء الاصطناعي الثوري في مجال التفكير والتحليل

تعلم المهارات الثابتة: الطريق الجديد لوكلاء الذكاء الاصطناعي القوي

اكتشف تقنية AgenticRAG: ثورة جديدة في استرجاع المعرفة للمؤسسات