يُعتبر التعلم المعزز (Reinforcement Learning) من الأساليب المناعية الهادفة التي حققت نجاحًا كبيرًا في Tasks متعددة، مثل توليد الصور من النصوص. ومع ذلك، لا يزال هذا المجال يواجه تحديات كبيرة بسبب عدم قياس احتمالية نماذج الانتشار (Diffusion Models) بدقة، مما يحول دون تطبيق أساليب شائعة مثل طرق تدرج السياسات (Policy-Gradient Methods).
تقوم العديد من الأساليب الحالية بالتركيز على ابتكار أهداف جديدة مبنية على نماذج اللغة الكبيرة (Large Language Models) المصممة مسبقًا، مستخدمةً تقديرات عفوية للاحتمالية. لكن هذا التحليل ليس كافيًا لفهم كيف يمكن أن تؤثر تقديرات الاحتمالية على أداء الخوارزميات بشكل عام.
في دراستنا الأخيرة، نقدم تحليلًا منهجيًا لمساحة تصميم التعلم المعزز من خلال فصل ثلاثة عوامل رئيسية:
1. أهداف تدرج السياسات.
2. مقدرات الاحتمالية.
3. مخططات أخذ العينات (Rollout Sampling Schemes).
وتبين النتائج أن اعتماد نموذج تقدير الاحتمالية القائم على الحد الأدنى من الأدلة (Evidence Lower Bound - ELBO) والذي يتم حسابه فقط من العينة النهائية المولدة، هو العامل المهيمن الذي يمكّن التحسين الفعال والثابت للتعلم المعزز. حيث تفوق تأثيره على تأثير وظيفة الخسارة لتدرج السياسات المحددة.
تم التحقق من نتائجنا عبر عدة معايير مكافأة باستخدام نموذج SD 3.5 Medium، ووجدنا اتجاهات ثابتة عبر جميع المهام. كما أظهرت الطريقة الجديدة تحسينًا في درجة GenEval من 0.24 إلى 0.95 في 90 ساعة عمل على GPU، مما يجعلها أكثر كفاءة بمعدل $4.6 imes$ مقارنة بأسلوب FlowGRPO وأفضل بمرتين من الطريقة الرائدة DiffusionNFT دون اختراق المكافآت.
إن هذا التطور ليس مجرد تحسين تقني، بل يفتح آفاقًا جديدة في كيفية التعامل مع نماذج الانتشار في التطبيقات البصرية للذكاء الاصطناعي. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
إعادة التفكير في تصميم التعلم المعزز لنماذج الانتشار: أهمية تقدير الاحتمالية beyond تصميم الخسارة
تقدم هذه الدراسة تحليلًا شاملاً لتصميم التعلم المعزز (Reinforcement Learning) في نماذج الانتشار، مثبتة أهمية تقدير الاحتمالية في تحسين الأداء. توصلت النتائج إلى زيادة ملحوظة في كفاءة التحسين، ما يعكس دورًا محوريًا لهذه الطريقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
