في عالم الذكاء الاصطناعي، يُعتبر التعلم الفيدرالي (Federated Learning) من الحلول الثورية التي تتيح تخصيص نماذج اللغات الضخمة (Large Language Models) مع الحفاظ على خصوصية البيانات. تتعرض الأنظمة الحالية لمشكلة رئيسية تتمثل في استخدام نموذج مكافأة موحد، مما يؤدي إلى تنسيق غير فعال بين تفضيلات المستخدمين المتنوعة، مثل الفرق بين الفائدة وغياب الضرر.
في إطار سعي للابتكار، تقدم هذه الدراسة مفهوم تعلم التفضيلات المتغيرة (Variational Preference Learning) كسبيل لتخصيص التجارب، لكن التكيف مع البيئات الموزعة يُعتبر تحدياً أساسياً بسبب نقص البيانات المحلية وتنوعها. هنا يأتي دور الاقتراح الجديد باسم Federated Variational Preference Alignment with Gumbel-Softmax Prior (FedVPA-GP)، الذي يهدف إلى فصل وتفكيك تفضيلات المستخدمين دون التنازل عن الخصوصية.
لاستقرار أوليات الانحياز المتغير، نقدم مزيج أُساسي فيدرالي يمكّن المتلقين من الاستفادة من توزيع السكان الكلي كأولوية ديناميكية. بالإضافة إلى ذلك، أضفنا فقداناً عمودياً (Orthogonal Loss) يفرض بشكل صريح فصل النماذج النموذجية للتفضيلات في الفضاء الكامن.
أظهرت التجارب على مجموعة بيانات HH-RLHF أن FedVPA-GP يتفوق بشكل كبير على النماذج التقليدية، مما يتيح فصل نوايا المستخدمين المتضاربة وتحقيق التبديل الديناميكي للتفضيلات. هذا التدريب الفريد يعد خطوة مهمة إلى الأمام في مجال التعلم الفيدرالي، مما يمهد الطريق لتجارب أكثر تخصيصًا وفعالية.
تحقيق التوازن في تفضيلات المستخدمين: الابتكار الجديد في التعلم الفيدرالي
طرحت دراسة جديدة إطار العمل Federated Variational Preference Alignment لتحسين الخصوصية وتنويع تفضيلات المستخدمين. الفكرة تمكنت من تجاوز قيود التكيف مع البيانات المحلية المتنوعة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
