تعد نماذج اللغات الضخمة (Large Language Models) محورية في مجال الذكاء الاصطناعي، لكن استخدامها يتطلب التغلب على تحديات متعددة، أبرزها وظائف الاحتمالات المعقدة التي تعيق تطبيق التعلم المعزز (Reinforcement Learning). هذه الوظائف تحتاج إلى تقنيات تقريب متطورة أثناء التدريب، لكن الأساليب الحالية غالبًا ما تسبب زيادة كبيرة في استخدام الذاكرة بسبب ضرورة الاحتفاظ بجميع العينات المستخدمة لحساب التدرجات.
لذا، نقترح تقنية جديدة تُعرف باسم تحسين سياسة الحدود (Boundary-Guided Policy Optimization - BGPO)، وهي خوارزمية تعزز الأداء وتقليل استهلاك الذاكرة من خلال التركيز على بناء حد أدنى مخصوص من الأهداف المعتمدة على الاحتمالات. يعكس هذا النهج خصائص رئيسية تجعله مميزًا:
1. **الخطية**: يعتمد هذا الحد الأدنى على جمع خطي، حيث يعتمد كل مصطلح على عينة واحدة فقط، مما يسمح بتراكم التدرجات عبر العينات دون زيادة استهلاك الذاكرة.
2. **التكافؤ**: تكون قيمة التدرج لهذا الحد الأدنى متساوية مع تلك المترتبة على الأهداف المعتمدة على الاحتمالات أثناء التدريب على السياسة، مما يجعله تقديرًا فعالًا لموضوع التعلم المعزز الأصلي.
تتيح هذه الخصائص لـ BGPO اعتماد حجم عينة كبير، مما يساهم في تحسين تقديرات الاحتمالات وأهداف التعلم المعزز، مما يؤدي في النهاية إلى تحسين الأداء. تظهر التجارب أن BGPO يتفوق بشكل كبير على الخوارزميات السابقة في مجالات حل المشكلات الرياضية، توليد البرمجيات، ومهام التخطيط.
إذا كنت مهتمًا باستكشاف تفاصيل هذا البحث وشرائه، يمكنك زيارة رابط المشروع على GitHub. ما رأيكم في هذه التقنية الجديدة؟ شاركونا في التعليقات!
تحسين سياسات الآلات الذكية: طريقة مبتكرة لتقليل استهلاك الذاكرة في التعلم المعزز لموديلات اللغات الضخمة!
تمثل وظيفة الاحتمالات إحدى أكبر التحديات عند تطبيق التعلم المعزز على نماذج اللغات الضخمة. تقدم تقنية Boundary-Guided Policy Optimization حلاً مبتكراً يساهم في تحسين الأداء وتقليل استهلاك الذاكرة بشكل ملحوظ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
