يُعتبر [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) ([Reinforcement Learning](/tag/reinforcement-learning)) من الأساليب المناعية الهادفة التي حققت نجاحًا كبيرًا في Tasks متعددة، مثل [توليد [الصور](/tag/الصور) من النصوص](/tag/[توليد](/tag/توليد)-[الصور](/tag/الصور)-من-النصوص). ومع ذلك، لا يزال هذا المجال يواجه [تحديات](/tag/تحديات) كبيرة بسبب عدم [قياس](/tag/قياس) [احتمالية](/tag/احتمالية) [نماذج الانتشار](/tag/[نماذج](/tag/نماذج)-[الانتشار](/tag/الانتشار)) (Diffusion [Models](/tag/models)) بدقة، مما يحول دون تطبيق [أساليب](/tag/أساليب) شائعة مثل طرق تدرج [السياسات](/tag/السياسات) (Policy-Gradient Methods).
تقوم العديد من الأساليب الحالية بالتركيز على [ابتكار](/tag/ابتكار) أهداف جديدة مبنية على [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) (Large Language [Models](/tag/models)) المصممة مسبقًا، مستخدمةً تقديرات عفوية للاحتمالية. لكن هذا [التحليل](/tag/التحليل) ليس كافيًا لفهم كيف يمكن أن تؤثر تقديرات الاحتمالية على [أداء](/tag/أداء) [الخوارزميات](/tag/الخوارزميات) بشكل عام.
في دراستنا الأخيرة، نقدم تحليلًا منهجيًا لمساحة [تصميم التعلم](/tag/[تصميم](/tag/تصميم)-[التعلم](/tag/التعلم)) المعزز من خلال فصل ثلاثة عوامل رئيسية:
1. أهداف تدرج [السياسات](/tag/السياسات).
2. مقدرات الاحتمالية.
3. [مخططات](/tag/مخططات) [أخذ العينات](/tag/أخذ-العينات) (Rollout [Sampling](/tag/sampling) Schemes).
وتبين النتائج أن اعتماد [نموذج](/tag/نموذج) [تقدير الاحتمالية](/tag/تقدير-الاحتمالية) القائم على الحد الأدنى من [الأدلة](/tag/الأدلة) (Evidence Lower Bound - ELBO) والذي يتم حسابه فقط من العينة النهائية المولدة، هو العامل المهيمن الذي يمكّن [التحسين](/tag/التحسين) الفعال والثابت للتعلم المعزز. حيث تفوق تأثيره على تأثير وظيفة الخسارة لتدرج [السياسات](/tag/السياسات) المحددة.
تم [التحقق](/tag/التحقق) من نتائجنا [عبر](/tag/عبر) عدة [معايير](/tag/معايير) [مكافأة](/tag/مكافأة) باستخدام [نموذج](/tag/نموذج) SD 3.5 Medium، ووجدنا اتجاهات ثابتة [عبر](/tag/عبر) جميع المهام. كما أظهرت الطريقة الجديدة تحسينًا في درجة GenEval من 0.24 إلى 0.95 في 90 ساعة [عمل](/tag/عمل) على GPU، مما يجعلها أكثر [كفاءة](/tag/كفاءة) بمعدل $4.6 imes$ مقارنة بأسلوب FlowGRPO وأفضل بمرتين من الطريقة الرائدة DiffusionNFT دون [اختراق](/tag/اختراق) [المكافآت](/tag/المكافآت).
إن هذا التطور ليس مجرد [تحسين](/tag/تحسين) تقني، بل يفتح آفاقًا جديدة في كيفية التعامل مع [نماذج الانتشار](/tag/[نماذج](/tag/نماذج)-[الانتشار](/tag/الانتشار)) في [التطبيقات](/tag/التطبيقات) البصرية للذكاء الاصطناعي. ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات).
إعادة التفكير في تصميم التعلم المعزز لنماذج الانتشار: أهمية تقدير الاحتمالية beyond تصميم الخسارة
تقدم هذه الدراسة تحليلًا شاملاً لتصميم التعلم المعزز (Reinforcement Learning) في نماذج الانتشار، مثبتة أهمية تقدير الاحتمالية في تحسين الأداء. توصلت النتائج إلى زيادة ملحوظة في كفاءة التحسين، ما يعكس دورًا محوريًا لهذه الطريقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
