في عالم الذكاء الاصطناعي، يتطور مفهوم تدريب نماذج اللغة العملاقة (Large Language Models) لتصبح وكلاء مستقلين عبر التعلم المعزز (Reinforcement Learning). لكن، يعاني معظم الخوارزميات الحالية من قيود كبيرة، خاصة في المهام التي تتطلب تعاملاً مع مكافآت نادرة ومتأخرة. هنا تأتي خوارزمية
**State-Score-Supervised Policy Optimization (3SPO)** كحل مبتكر.
تعمل خوارزمية 3SPO على تحسين سياسات الوكلاء في الوقت الحقيقي، ما يسمح بإجراء تغييرات دقيقة بعد كل خطوة دون الحاجة لتقدير دالة القيمة أو استخدام نماذج إضافية. تعتمد هذه الخوارزمية على تقدير النقاط بدقة، ما يحسن القدرة على تحديد المكافآت ومن ثم يعزز الأداء العام للنموذج.
وفقًا للنتائج التجريبية على منصتين، ALFWorld وWebShop، أثبتت 3SPO أنها متفوقة على الأساليب التقليدية بنسبة تصل إلى 22.6% على ALFWorld و15.6 نقطة على WebShop. بالإضافة إلى ذلك، تمكنت هذه الخوارزمية من زيادة الاستكشاف بشكل كبير وتطبيق أسرع.
باختصار، تمثل 3SPO خطوة جبارة نحو تحسين تجارب التعلم للذكاء الاصطناعي، حيث تفتح آفاقاً جديدة لوكلاء يتمتعون بكفاءات عالية وقدرات على التعلم الديناميكي. فهل هناك مستقبل مشرق ينتظرنا مع هذه الابتكارات؟
3SPO: ثورة جديدة في تحسين سياسات نماذج اللغة العملاقة!
تعرفوا على 3SPO، الخوارزمية المبتكرة التي تعيد تعريف كيفية تدريب نماذج اللغة العملاقة (LLMs) بوصفها وكلاء مستقلين. بفضل تحسين السياسات بناءً على تقييم ديناميكي، تحقق 3SPO أداءً متميزًا في المهام الطويلة الأمد.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
