في عالم الذكاء الاصطناعي، أثبتت [نماذج الاستدلال](/tag/[نماذج](/tag/نماذج)-[الاستدلال](/tag/الاستدلال)) الكبيرة (Large Language Reasoning [Models](/tag/models)) نجاحاً ملحوظاً في المهام الثابتة. ومع ذلك، فإن تطبيقها في [التخطيط](/tag/التخطيط) متعدد الجولات في بيئات [تفاعلية](/tag/تفاعلية) يواجه تحديين رئيسيين. الأول هو مشكلة [توزيع الائتمان](/tag/توزيع-[الائتمان](/tag/الائتمان)) (credit assignment problem) المعقدة التي تجعل [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) التقليدي غير فعال في البيئات ذات الثواب النادر. والثاني هو الحمل الحاسوبي الناتج عن [السجلات](/tag/السجلات) الطويلة من عمليات الاستدلال، مما يؤدي إلى صعوبة كبيرة في [التطبيقات](/tag/التطبيقات) [العملية](/tag/العملية).
للتغلب على هذه التحديات، تم تقديم إطار BPO، الذي يتكون من ثلاثة مراحل (التمهيد، الاستقراء، والتنقيح) ويؤسس دورة [بيانات ذاتية](/tag/[بيانات](/tag/بيانات)-ذاتية) [التحسين](/tag/التحسين) لتطوير [نماذج استدلال](/tag/[نماذج](/tag/نماذج)-[استدلال](/tag/استدلال)) قوية في بيئات [التخطيط](/tag/التخطيط) ذات [المكافآت](/tag/المكافآت) النادرة والمدى الطويل. تبدأ [العملية](/tag/العملية) بتمهيد [استدلال](/tag/استدلال) فعال باستخدام الرباعيات التخطيطية (planning quaternions) مع دمج تسلسل [التفكير](/tag/التفكير) القصير والطويل. بعدها، يتم الاستقراء إلى المهام غير الموزعة من خلال [التعلم المنهجي](/tag/[التعلم](/tag/التعلم)-المنهجي) المعتمد على تعقيد [البيئة](/tag/البيئة). وأخيراً، يتم تنقيح النموذج بشكل تكراري من خلال [التعلم](/tag/التعلم) بالاعتماد حصراً على [التجارب](/tag/التجارب) المدروسة [عبر](/tag/عبر) [عينة](/tag/عينة) [رفض](/tag/رفض) مُحكمة من خلال [المكافآت](/tag/المكافآت).
تجاربنا على ALFWorld وScienceWorld وWebShop أظهرت أن نهجنا يحقق مستويات عالية جداً من الكفاءة، مما يوفر وصفة جديدة لنماذج [الاستدلال](/tag/الاستدلال) في [التخطيط](/tag/التخطيط) الذاتي. إن [الابتكار](/tag/الابتكار) في هذا المجال يمثل خطوة جريئة [نحو](/tag/نحو) [تحسين الأداء](/tag/[تحسين](/tag/تحسين)-[الأداء](/tag/الأداء)) في البيئات التفاعلية التي تشبه العالم الحقيقي.
استعادة استراتيجية التخطيط الذكي: إطار BPO لتحسين نماذج الاستدلال في البيئات النادرة الثواب
اكتشاف جديد في عالم الذكاء الاصطناعي! إطار BPO الجديد يعد بتحسين استراتيجيات التخطيط في البيئات التي تعاني من ندرة المكافآت. اقرأ كيف يغير هذا الابتكار قواعد اللعبة ويساهم في تطور نماذج الاستدلال!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
