خوارزمية Owen-Shapley: ثورة في تحسين السياسة للذكاء الاصطناعي القائم على اللغة!

في عصر الذكاء الاصطناعي، تتزايد أهمية نماذج اللغة الضخمة (Large Language Models) المدربة بواسطة التعلم المعزز (Reinforcement Learning)، خصوصًا في مجالات التوصية الشخصية. ومع ذلك، تعتمد الأساليب التقليدية مثل GRPO على مكافآت ضعيفة المستوى وضعيفة التمييز، مما يخلق فجوة في تحديد أي الرموز (Tokens) تسهم فعليًا في إنتاج عمليات نوعية عالية.

تعتبر هذه الفجوة مشكلة حقيقية خاصةً عند الحاجة إلى استنتاج النية الكامنة لدى المستخدم من لغة غير محددة، حيث تكون البيانات الحقيقية غير متوفرة. هنا تبرز خوارزمية Owen-Shapley Policy Optimization (OSPO) كإطار يهدف إلى إعادة توزيع المزايا على مستوى السلاسل بناءً على الإسهامات الهامشية للرموز في النتائج.

تعتمد OSPO على تحويل ملاحظات المهام إلى تشكيل مكافآت قائمة على الإمكانات بواسطة آليات مثل شابلي وأوين (Shapley-Owen) لتعيين الفضل على المستوى الجزئي مع الحفاظ على السياسة المثلى، دون الحاجة إلى نماذج قيم متغيرة.

عبر تشكيل تحالفات من وحدات ذات دلالة مترابطة مثل العبارات التي تصف خصائص المنتجات أو الجمل التي تعبر عن تفضيلات المستخدم، تستطيع OSPO تحديد الأجزاء الأكثر تأثيرًا في الاستجابة التي تعزز الأداء.

التجارب على مجموعات البيانات الخاصة بأمازون (Amazon ESCI) ومجوهرات H&M أظهرت مكاسب متسقة مقارنة بالأساليب التقليدية، بالإضافة إلى مرونة ملحوظة في الأداء في ظل ظروف خارج نطاق التدريب. هذه النتائج تبشر بإمكانيات جديدة في تحسين قدرات الذكاء الاصطناعي وتوفير تجارب أكثر تخصيصًا للمستخدمين.

خوارزمية Owen-Shapley: ثورة في تحسين السياسة للذكاء الاصطناعي القائم على اللغة!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

تعرف على ZAYA1-8B: نموذج الذكاء الاصطناعي الثوري في مجال التفكير والتحليل

تعلم المهارات الثابتة: الطريق الجديد لوكلاء الذكاء الاصطناعي القوي

اكتشف تقنية AgenticRAG: ثورة جديدة في استرجاع المعرفة للمؤسسات