في الآونة الأخيرة، شهد مجال [توليد [الصور](/tag/الصور) من النصوص](/tag/[توليد](/tag/توليد)-[الصور](/tag/الصور)-من-النصوص) ([Text-to-Image](/tag/text-to-image)) تقدماً مهماً بفضل استخدام أسلوب [تحسين السياسات](/tag/[تحسين](/tag/تحسين)-[السياسات](/tag/السياسات)) النسبية الجماعية (Group Relative [Policy Optimization](/tag/policy-optimization) - [GRPO](/tag/grpo)). ومع ذلك، كان يُعيق هذا التقدم محدودية كبيرة تتمثل في نسبة الفوائد غير الدقيقة. لذا، تتناول [دراسة جديدة](/tag/[دراسة](/tag/دراسة)-جديدة) كيفية التغلب على هذه المشكلة من خلال جمع خطوات [التدريب](/tag/التدريب) المتتابعة ضمن وحدة متكاملة تُعرف باسم "chunk".

في هذه الدراسة، يقترح الباحثون الانتقال من [تحسين السياسات](/tag/[تحسين](/tag/تحسين)-[السياسات](/tag/السياسات)) على مستوى الخطوة كما في [GRPO](/tag/grpo) إلى [تحسين](/tag/تحسين) على مستوى التجميع (chunk-level). هذه الاستراتيجية الجديدة، المعروفة باسم [تحسين السياسات](/tag/[تحسين](/tag/تحسين)-[السياسات](/tag/السياسات)) تجميعية الخطوات (Group Chunking [Policy Optimization](/tag/policy-optimization) - GCPO)، تشير إلى نهج [جديد](/tag/جديد) للتعلم المعزز، مما يمكّن من تقليل التأثير السلبي لمشكلة النسبة الدقيقة.

[عبر](/tag/عبر) [تجارب](/tag/تجارب) مفصلة، أثبتت GCPO [تحقيق](/tag/تحقيق) أداءً متفوقاً على [معايير](/tag/معايير) T2I التقليدية وتوافق التفضيلات، حيث أظهرت [تحقيق](/tag/تحقيق) مكاسب نسبتها تصل إلى 43% مقارنة بـ [GRPO](/tag/grpo). هذه النتائج تبشر بأفق واعد لتقنيات [تحسين السياسات](/tag/[تحسين](/tag/تحسين)-[السياسات](/tag/السياسات)) على مستوى التجميع، مما يفتح آفاقاً جديدة في [مجالات الذكاء الاصطناعي](/tag/مجالات-الذكاء-الاصطناعي).

للمزيد من [المعلومات](/tag/المعلومات) حول هذا [البحث](/tag/البحث) ونتائج الاختبارات، يمكنك زيارة [الكود](/tag/الكود) المصدري المتاح على [GitHub](https://github.com/xingzhejun/GCPO). ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات)!