في السنوات الأخيرة، حققت تقنيات تحويل النص إلى صورة (Text-to-Image) تقدماً مذهلاً، مما فتح آفاق جديدة في عالم الذكاء الاصطناعي. لقد جذبت طرق التعزيز الانتباه بشكل واسع، خصوصاً الأساليب القائمة على تحسين سياسة المجموعات النسبية (Group Relative Policy Optimization - GRPO) والتي تم تطبيقها بنجاح في مهام تحويل النص إلى صورة.

ومع ذلك، فإن استراتيجية أخذ العينات الموحدة التي تُستخدم عادة خلال التدريب غالباً ما تغفل عن التوافق بين صعوبة العينة وقدرة النموذج الحالية على التعلم، مما يؤدي إلى انخفاض كفاءة التدريب. واعتمد الباحثون على فكرة أن تحسين كفاءة التدريب يتطلب التركيز المستمر على النصوص التي تتوافق مع القدرات المتطورة للنموذج وتظل سهلة التعلم.

لتنفيذ ذلك، يُقترح إطار عمل وهو تحسين سياسة المناهج التعليمية المتكيفة (Curriculum Group Policy Optimization - CGPO). أثناء التدريب، يُنتج كل نص مجموعة من الصور التي تُقيّم بواسطة نموذج المكافأة. يُستخدم تباين المكافآت الجماعية كمعيار عبر الإنترنت لعدم التناسق في النصوص. يشير التباين العالي إلى أن النموذج قد استوعب جزئياً متطلبات النص، لكنه لم يُحقق بعد إتقاناً مستقراً. مثل هذه النصوص تُعد الأكثر قدرة على تقديم إشارات تعلم مفيدة، لذا نقوم بزيادة احتمالات أخذ عينات منها بناءً على ذلك.

علاوة على ذلك، لمعالجة عدم التوازن في البيانات ضمن مجموعات بيانات متعددة الفئات، تم تصميم طريقة معايرة فئوية تعتمد على تحسين العدالة النسبية، والتي توازن صعوبة التدريب عبر الفئات المختلفة.

تظهر التجارب على GenEval وT2I-CompBench++ وDPG Bench أن إطار العمل الخاص بنا يحسن بشكل فعّال أداء التوليد، مما يعكس نجاح هذا المنهج الجديد في تعزيز كفاءة تقنيات الذكاء الاصطناعي الحديثة.