في عصر الذكاء الاصطناعي، تتزايد أهمية نماذج اللغة الضخمة (Large Language Models) المدربة بواسطة التعلم المعزز (Reinforcement Learning)، خصوصًا في مجالات التوصية الشخصية. ومع ذلك، تعتمد الأساليب التقليدية مثل GRPO على مكافآت ضعيفة المستوى وضعيفة التمييز، مما يخلق فجوة في تحديد أي الرموز (Tokens) تسهم فعليًا في إنتاج عمليات نوعية عالية.
تعتبر هذه الفجوة مشكلة حقيقية خاصةً عند الحاجة إلى استنتاج النية الكامنة لدى المستخدم من لغة غير محددة، حيث تكون البيانات الحقيقية غير متوفرة. هنا تبرز خوارزمية Owen-Shapley Policy Optimization (OSPO) كإطار يهدف إلى إعادة توزيع المزايا على مستوى السلاسل بناءً على الإسهامات الهامشية للرموز في النتائج.
تعتمد OSPO على تحويل ملاحظات المهام إلى تشكيل مكافآت قائمة على الإمكانات بواسطة آليات مثل شابلي وأوين (Shapley-Owen) لتعيين الفضل على المستوى الجزئي مع الحفاظ على السياسة المثلى، دون الحاجة إلى نماذج قيم متغيرة.
عبر تشكيل تحالفات من وحدات ذات دلالة مترابطة مثل العبارات التي تصف خصائص المنتجات أو الجمل التي تعبر عن تفضيلات المستخدم، تستطيع OSPO تحديد الأجزاء الأكثر تأثيرًا في الاستجابة التي تعزز الأداء.
التجارب على مجموعات البيانات الخاصة بأمازون (Amazon ESCI) ومجوهرات H&M أظهرت مكاسب متسقة مقارنة بالأساليب التقليدية، بالإضافة إلى مرونة ملحوظة في الأداء في ظل ظروف خارج نطاق التدريب. هذه النتائج تبشر بإمكانيات جديدة في تحسين قدرات الذكاء الاصطناعي وتوفير تجارب أكثر تخصيصًا للمستخدمين.
خوارزمية Owen-Shapley: ثورة في تحسين السياسة للذكاء الاصطناعي القائم على اللغة!
تقدم خوارزمية Owen-Shapley Policy Optimization (OSPO) نهجاً متقدماً في تحسين أداء نماذج اللغة الضخمة عبر تعلم التعزيز. هذه الخوارزمية تعمل على تقليل الفجوات في توزيع المكافآت مما يسهم في تحسين دقة الفهم في المهام المعقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
