في عالم الذكاء الاصطناعي والتفاعل الاستراتيجي بين الوكلاء، يواجه الباحثون تحديات كبيرة ترتبط بجودة القرارات واتخاذ الإجراءات. إن الاعتماد على مكافآت فورية قد لا يكون كافيًا دائمًا، حيث تعتمد جودة كل خطوة على أحداث مستقبلية قد لا تحدث، أو على قرارات تخص لاعبين آخرين. لهذا، قدم الباحثون تقنية جديدة تحت مسمى "تخصيص المكافآت المتأخرة لكل خطوة" (Delayed Per-Step Reward Attribution) مع بوابة الأهلية، والتي تهدف إلى تحسين نوعية التدريب على طرازات اللغة في بيئات متعددة الوكلاء.
هذه الطريقة الجديدة تعتمد على تنفيذ نظام دورة حياة فريد، حيث يتم حساب المكافآت فقط في نهاية الحلقة. ثم تقوم التقنية بإرجاع هذه المكافآت إلى الخطوات الأولى وفقًا لمعاني وظيفية محددة، مما يساعد في استبعاد الخطوات التي تفتقر إلى معلومات مرتبطة ذات مصداقية من عملية التدريب.
إحدى الميزات المميزة لهذه الابتكارات هي القدرة على توليد جولات غير متزامنة عبر خواص zLLM، مما يعزز من كفاءة التدريب وزيادة الاستقرار في بيئات متعددة الوكلاء.
خضعت هذه التقنية لتجربة مثيرة في معيار MindGames Arena خلال مؤتمر NeurIPS 2025، حيث أثبت نموذج مفتوح المصدر ذو 8 مليار معامل أنه متفوق في الأداء، محققًا نتائج تعادل أو تتجاوز الأنظمة التجارية الأكبر مثل GPT-5، مما يدل على أن التكنولوجيا الحديثة قادرة على تحقيق قفزات نوعية في مجالات الذكاء الاصطناعي.
إذا كنت شغوفًا بتطورات الذكاء الاصطناعي وتطبيقاته، فإن هذا الابتكار يمثل نقطة تحول مثيرة! كيف ترى تأثير هذه التقنيات على المستقبل؟ شاركونا آرائكم في التعليقات.
ثورة جديدة في التدريب على الذكاء الاصطناعي: كيف تتفوق تقنيات المكافآت المتأخرة في بيئات متعددة الوكلاء!
تقدم التقنية الجديدة أساليب مبتكرة في تدريب نماذج اللغة من خلال تحسين نظام المكافآت المتأخرة لتدريب أكثر كفاءة. في تجربة مثيرة، تمكن نموذج مفتوح المصدر من التفوق على نماذج تجارية أكبر مثل GPT-5.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
