في عالم توليد الصور، شهدت الجهود الشخصية تقدمًا مثيرًا، ولكن توليد الصور المرجعية متعددة الأنواع (Multi-Reference Image Generation - MRIG) لا يزال يعد تحديًا كبيرًا. معظم المعايير الحالية لم تتمكن من تقييم هذه السيناريوهات المعقدة بشكل مناسب، مما يعيق تقدم الأبحاث. هنا يأتي دور معيار OmniRef-Bench الجديد، الذي يشمل تركيبات معقدة لأنواع متعددة من الصور المرجعية ويحتوي على عدد كبير من الصور المرجعية.

أظهرت التقييمات على OmniRef-Bench أن النماذج مفتوحة المصدر تعاني في السيناريوهات المعقدة لتوليد الصور المرجعية، حيث يتدهور أداؤها بشكل ملحوظ عندما يزداد عدد الصور المرجعية المختلطة الأنواع. للتغلب على هذا التحدي، اقترح الباحثون إطار التدريب DyRef، الذي يتكون من مرحلتين:

**المرحلة الأولى** تتضمن تحسينًا مشرفًا، مما يمنح النموذج القدرة الأساسية على التعامل مع مهام MRIG المعقدة.
**المرحلة الثانية** تقدم مفهوم "إعادة وزن المزايا المدركة للصعوبة" (Difficulty-aware Advantage Reweighting - DAR) و"توسيع مكافآت الفرق التمييزية" (Discriminative Reward Scaling - DRS). حيث يقوم DAR بتعديل هدف التحسين بشكل ديناميكي لتحسين الأداء عند التعامل مع عدد كبير من الصور المرجعية المختلطة الأنواع، بينما يعمل DRS على زيادة الفروقات في المكافآت داخل المجموعة بهدف تحسين السياسة بشكل أكثر فعالية.

تظهر التجارب أن DyRef يحسن بشكل كبير أداء النماذج مفتوحة المصدر على معايير OmniRef-Bench ومعايير تحرير الصور المفردة، مما يسلط الضوء على فعالية وقدرة التعميم لهذا المنهج. فهل أنتم مستعدون لمشاهدة كيف سيغير هذا التطور قواعد اللعبة في عالم الذكاء الاصطناعي وتوليد الصور؟ شاركونا آراءكم في التعليقات!