شهد عالم الذكاء الاصطناعي نجمًا جديدًا يسطع في سماء نماذج الرؤية-اللغة (Vision-Language Models) التي تُعد من الأدوات الفعّالة في مجالات حساسة، مثل الرعاية الصحية والتمويل، حيث تتطلب سرية البيانات الحماية القصوى. لكن التحديات الناتجة عن قيود تبادل البيانات تجعل من الصعب تنفيذ تدريب مركزي لهذه النماذج.

لحل هذه المشكلة، يأتي مفهوم التعلم الفيدرالي (Federated Learning) ليقدم نموذجًا مبتكرًا للتدريب اللامركزي، مما يتيح التدريب على البيانات دون الحاجة إلى مشاركتها بشكل مباشر. ومع ذلك، فإن تنفيذ هذه الفكرة في العالم العملي يواجه بعض التحديات، نتيجة لتعدد الخصائص ما بين العملاء، من الموارد الحاسوبية إلى متطلبات التطبيقات وهياكل النماذج.

في إطار هذه التحديات، يبرز اقتراح جديد يُسمى MoR، وهو إطار للتوافق الفيدرالي يمزج بين تقنية GRPO وآلية Mixture-of-Rewards. يتم تدريب نموذج مكافأة محلي في MoR من خلال تفضيلات العملاء دون الحاجة لكشف البيانات الخام، مما يزيد من الأمان والخصوصية.

كما أن MoR يطبق آلية Mixture-of-Rewards ذات التوجيه المتعلم، التي تُدمج نماذج المكافأة الخاصة بالعملاء وفقًا للأهداف المسطرة، مما يعزز من دقة النتيجة النهائية. هذه المنهجية تتيح تحسين نموذج VLM الأساسي بطريقة توازن بين الخصوصية والأداء، دون الحاجة لمشاركة الهياكل أو المعلمات ما بين النماذج.

تظهر التجارب التي أُجريت على معايير متنوعة في ميدان الرؤية-اللغة أن MoR يتفوق بشكل مستمر على الأساليب التقليدية في التوافق الفيدرالي، مما يعزز من قابلية التكيف والتعميم عبر العملاء. هذه الابتكارات تعد خطوة هائلة نحو جعل نماذج التعلم الفيدرالي أكثر كفاءة وملاءمة لضمان الخصوصية.