تعتبر نماذج اللغات الضخمة (Large Language Models) من أبرز الابتكارات في عالم الذكاء الاصطناعي، ومع ذلك، فإن تحسين هذه النماذج لتمكينها من اتخاذ قرارات استراتيجية على مدى طويل لا يزال يمثل تحديًا علميًا كبيرًا. في الوقت الحالي، تعتمد أغلب الأساليب المستخدمة على ردود فعل تفاعلية، مما يؤثر سلبًا على قدرة النماذج على استكشاف خيارات متعددة وتوزيع المكافآت على مجموعة من المسارات التي يتم اتخاذها خلال فترة زمنية طويلة.
في هذا السياق، ظهرت دراسة حديثة تُقدم إطار عمل مبتكر يُعرف بـ"استراتيجية التجريد الزمني" (Strategic Trajectory Abstraction أو StraTA). يتميز هذا الإطار بقدرته على دمج استراتيجية واضحة على مستوى المسار في التعلم المعزز (Reinforcement Learning أو RL) الخاص بالوكالات الذكية. تقوم StraTA بتوليد استراتيجية مركزة من الحالة الأولية للمهام، حيث تعتمد الإجراءات اللاحقة على هذه الاستراتيجية، وتتيح تدريب توليد الاستراتيجية وتنفيذ الإجراءات بشكل مشترك من خلال تصميم مدروس من نوع GRPO، مع تحسين إضافي يعتمد على التنوع في انطلاقات الاستراتيجيات والقدرة على الحكم الذاتي النقدي.
أظهرت التجارب التي تم إجراؤها في بيئات مثل ALFWorld وWebShop وSciWorld أن StraTA تتفوق باستمرار على النماذج القوية السابقة من حيث كفاءة العينة والأداء النهائي. حيث سجلت نسبة نجاح مذهلة بلغت 93.1% في ALFWorld، و84.2% في WebShop، بينما حققت في SciWorld معدل نجاح متوسط بلغ 63.5%، متفوقةً على النماذج المغلقة من نوعها. هذا التطور النوعي يفتح آفاقًا جديدة لاستخدامات الذكاء الاصطناعي في مجالات متعددة، ويثير تساؤلات حول كيفية الاستفادة من هذه التكنولوجيا في تعزيز قدرات اتخاذ القرارات الاستراتيجية.
استراتيجية التعزيز الذاتي: كيف تعزز نماذج الذكاء الاصطناعي القدرة على اتخاذ القرارات طويلة الأمد؟
تقدم دراسة جديدة إطار عمل مبتكر يُعرف باسم Strategic Trajectory Abstraction (StraTA)، والذي يسهم في تحسين أداء نماذج الذكاء الاصطناعي في اتخاذ القرارات الاستراتيجية على المدى الطويل. النتائج أوضحت تفوق هذا الأسلوب على تقنيات سابقة بتسجيل نسب نجاح مرتفعة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
