في عالم [التعلم](/tag/التعلم) العميق، يمثل [تصميم](/tag/تصميم) وتحسين [دوال المكافآت](/tag/دوال-[المكافآت](/tag/المكافآت)) (Reward Functions) [تحديات](/tag/تحديات) كبيرة عند التعامل مع بيئات مخصصة ومعقدة ومتعددة الأهداف. في خطوة مفاجئة، اقترحت [دراسة](/tag/دراسة) حديثة نظامًا يتمثل في استخدام [نماذج لغوية ضخمة](/tag/[نماذج](/tag/نماذج)-لغوية-ضخمة) (Large Language [Models](/tag/models)) المعروفة بـ "ERFSL"، والذي يعمل كبحث فعال لدوال [المكافآت](/tag/المكافآت).
يتميز نظام ERFSL بكونه قادرًا على [فهم](/tag/فهم) المعاني بدقة، مما يساعده على [توليد](/tag/توليد) مكونات [مكافآت](/tag/مكافآت) لكل متطلبات المستخدم المحددة رقميًا، مع استخدام ناقد للمكافآت لتحديد الشكل الصحيح للكود.
يُعطي النظام وزنًا مخصصًا لمكونات المكافآت، مما يضمن التوازن بينها، ويقوم بتعديل الأوزان بشكل تكراري دون ارتباك أو تعديلات زائدة، مستفيدًا من [استراتيجيات](/tag/استراتيجيات) التغيير الاتجاهي والتزاوج المشابهة للخوارزميات الجينية. تم تطبيق هذا الإطار على مهمة [جمع بيانات](/tag/جمع-[بيانات](/tag/بيانات)) مخصصة للتعلم المعزز، بدون الحاجة إلى ملاحظات أو أمثلة [مكافآت](/tag/مكافآت) مباشرة ([تعلم](/tag/تعلم) بدون أقران الزر (zero-shot learning)).
نجح ناقد [المكافآت](/tag/المكافآت) في تصحيح [كود](/tag/كود) المكافأة باستخدام حالة عائدة واحدة فقط لكل متطلب، مما ساعد في تجنب [الأخطاء](/tag/الأخطاء) التي لا يمكن تصحيحها. ومن خلال هذه الطريقة، تتمكن من الحصول على وظيفتين مختلفتين للمكافآت ضمن مجموعة الحلول (Pareto Solution Set) دون الحاجة للبحث عن الأوزان. حتى في الحالات التي يكون فيها الوزن [خطأ](/tag/خطأ) بمقدار 500 مرة، يحتاج النظام إلى متوسط 5.2 تكرار فقط لتلبية متطلبات المستخدم.
كما يعمل ERFSL بشكل جيد مع معظم [التعليمات](/tag/التعليمات) التي تستخدم [نموذج GPT](/tag/[نموذج](/tag/نموذج)-gpt)-[4o](/tag/4o) mini، حيث يتم [تحليل](/tag/تحليل) عملية [البحث](/tag/البحث) عن الأوزان لتقليل الحاجة إلى [فهم](/tag/فهم) الأرقام والسياقات الطويلة. هذه التطورات تشير إلى إمكانيات هائلة لنماذج [اللغة](/tag/اللغة) في مجال [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز).
ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات)!
نموذج لغوي ثوري: حل فعال لتصميم دوال المكافآت في بيئات التعلم العميق المتعددة الأهداف!
تقدم ورقة جديدة حلاً مبتكرًا يستخدم نماذج لغوية ضخمة (LLMs) لتحسين تصميم دوال المكافآت في التعلم المعزز. النظام المقترح فعال، ويحقق نتائج مبهرة باستخدام استراتيجيات متطورة في التحليل والوزن.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
