في عالم الذكاء الاصطناعي، تُعد نماذج اللغات متعددة الوسائط (Multi-Modal Large Language Models) واحدة من أبرز التطورات، حيث تُظهر قدرات مذهلة في توليد الصور. ومع ذلك، لا يزال تحسين هذه النماذج من خلال التعلم التعزيزي (Reinforcement Learning) يمثل تحديًا كبيرًا. يجدر بالذكر أن توليد صورة واحدة يمكن أن يتم عبر عدة تسلسلات مختلفة، مما يجعل حساب نسبة الأهمية لمختلف العناصر عملية معقدة.

إحدى النقاط الحرجة التي تغفلها الأساليب الحالية هي عملية التوليد الهيكلي، حيث تحدد العناصر الأولى تخطيط الصورة العام بينما تركز العناصر اللاحقة على التفاصيل الدقيقة. من خلال منح مكافآت ثابتة لجميع العناصر، تفشل هذه الأساليب في عكس المساهمة الفعلية لكل عنصر في الصورة النهائية.

للتغلب على هذه التحديات، تم تقديم طريقة جديدة تعرف باسم هيكلية GRPO التطبيقية (Hierarchical Token GRPO - HT-GRPO). تعتمد هذه الطريقة على دمج الهيكلية مباشرة في عملية تحسين السياسات، ويتميز هذا النهج بمخطط تدريب يُعرف باسم "اسكتش ثم طلاء" (Sketch-Then-Paint)، والذي يُنظم التحديثات إلى ثلاث مراحل متميزة: تشكيل الصورة العامة، الهيكلة، والتنقيح.

علاوة على ذلك، تُستخدم تقديرات مشروطة للطلبات لحساب نسب الأهمية بدءًا من حالة مقنعة بالكامل. كما تم تقديم آلية منح الائتمان الهيكلي (Hierarchical Credit Assignment) التي تعطي الأولوية للعناصر الهيكلية المهمة لضمان انتقال المكافآت بدقة.

تظهر التجارب باستخدام نموذجين شعبيين هما MMaDA وLumina-DiMOO أن HT-GRPO تحقق تحسينات ملحوظة في قياسات GenEval وDPG. بالإضافة إلى ذلك، تؤكد التقييمات عبر ستة مقاييس إضافية تحسينات ملحوظة في جودة الصور، الجماليات، وتفضيلات المستخدمين. ما رأيكم في هذه التطورات المثيرة في عالم الذكاء الاصطناعي؟ شاركونا أفكاركم وتعليقاتكم!