في عالم الذكاء الاصطناعي، يتطلب المواءمة بين نماذج الجيل المتعدد (multimodal generative models) وتفضيلات البشر إشارات مكافأة تأخذ بعين الاعتبار الهيكل المتعدد الأبعاد والمعقد للحكم البشري. تتيح الأساليب السائدة مثل تعلم التعزيز المتعلق بالتفضيلات البشرية (RLHF) اختزال هذا الهيكل إلى تصنيفات بسيطة أو ثنائية، مما يؤدي إلى تقليل تفضيلات دقيقة إلى معايير غامضة وإظهار نقاط الضعف في هذه النماذج.

في هذا السياق، تأتي Auto-Rubric as Reward (ARR) كإطار عمل مبتكر يُعيد تصوّر نمذجة المكافآت، مُنقلاً التركيز من تحسين الأوزان الضمنية إلى تفكيك واضح يستند إلى المعايير. حيث تقوم ARR بتحويل المعرفة المتأصلة في النموذج إلى معايير خاصة تعتمد على التوجيه، مما يؤدي إلى ترجمة الأهداف الكلية إلى أبعاد جودة قابلة للتحقق بشكل مستقل.

تساهم هذه العملية في تقليل الانحيازات في التقييم، مثل الانحياز الموقعي، مما يمكّن من التوزيع الخالي من الشوتات (zero-shot deployment) والتهيئة القليلة الشوتات (few-shot conditioning) مع إشراف محدود. ولتحقيق هذه المكتسبات خلال التدريب التوليدي، نقترح تحسين سياسة المعايير (Rubric Policy Optimization - RPO)، الذي يقوم بتقطير تقييم ARR الهيكلي إلى مكافأة ثنائية قوية، محولاً الانحدار العددي الغامض إلى قرارات تفضيل مشروطة بالمعايير تحقق استقراراً في تدرجات السياسة.

تظهر النتائج في اختبارات توليد النص إلى صورة وتحرير الصور أن ARR-RPO يتفوق على نماذج المكافآت الثنائية ومعايير القضاة، مما يدلل على أن كشف المعرفة الضمنية في إطار هيكلي يعزز من التوافق الجيد والفعال بين النماذج المتعددة، مما يسفر عن استنتاج مثير: العقبة الأكبر تكمن في غياب واجهة مفككة، وليس في نقص المعرفة.