في عالم الذكاء الاصطناعي، تُعد النماذج الكبيرة متعددة الوسائط (Large Multimodal Models) من أبرز الابتكارات. ومع ذلك، فإن التحدي يكمن في تطبيق طرق التدريب بعد التدريب (Post-Training) مثل الضبط الدقيق الخاضع للإشراف (Supervised Fine-Tuning) الذي غالبًا ما ينتج عنه انحراف في التوزيع.

تقوم تقنية PRISM بتقديم حل ذكي من خلال إدخال مرحلة توافق توزيع صريحة بين عملية الضبط الدقيق والتعلم المعزز المعتمد على مكافآت قابلة للتحقق (Reinforcement Learning with Verifiable Rewards). وخصوصًا في حالات التفكير متعدد الوسائط، حيث تفاعل الأخطاء الإدراكية وفشل التفكير يخلق أنماط انحراف متميزة، تأتي PRISM لتخفف من تلك المعاناة.

تعمل PRISM اعتمادًا على مبدأ تقطير السياسة (On-Policy Distillation)، حيث تُعتمد كأداة للتفاعل بين سياسة النموذج ومُميز متنوع الخبراء (Mixture-of-Experts) الذي يضم خبراء في الإدراك والتفكير. هذه الاستراتيجية توفر إشارات تصحيحية منفصلة توجه السياسة نحو توزيع الإشراف بدون الحاجة للوصول إلى لوغاريتمات المعلم.

على الرغم من أن 1.26 مليون عرض عام تكفي لتفعيل الضبط الدقيق، إلا أن توافق التوزيع يتطلب إشرافًا عالي الجودة. لذا، قامت PRISM بجمع 113 ألف عرض إضافي من نموذج Gemini 3 Flash، الذي يمكّن من تحليل مرئي كثيف وتفكير خطوة بخطوة في أصعب المشكلات.

أظهرت التجارب على النموذج Qwen3-VL أن PRISM تعمل على تحسين أداء التعلم المعزز (RLVR) بشكل دائم عبر مجموعة متنوعة من خوارزميات التعلم المعزز (مثل GRPO، DAPO، GSPO) ومعايير متعددة الوسائط، حيث ارتفعت الدقة بمتوسط 4.4 و6.0 نقاط مقارنة بالأساسيات الموجودة.

أخيرًا، القيم العالية لإتاحة الشيفرات وبيانات النموذج عبر الرابط [الرابط متاح هنا](https://github.com/XIAO4579/PRISM) تتيح للباحثين استكشاف التحسينات المفاجئة في أداء النماذج الكبيرة.