مع تزايد استخدام نماذج اللغة الضخمة (Large Language Models) في البرمجة، يبقى توليد الأكواد الدقيقة والقابلة للتنفيذ تحديًا كبيرًا للغات البرمجة الممثلة بشكل ناقص، مثل بروغل وليسب، وذلك بسبب نقص البيانات العامة مقارنةً باللغات الأكثر شيوعًا مثل بايثون.
تقديم ورقة بحثية جديدة، تحتوي على نهج عام للتعلم التعزيزي (Reinforcement Learning) الذي يجمع بين نماذج صغيرة من Qwen2.5-Coder وأسلوب تحسين السياسة النسبية للمجموعة (Group Relative Policy Optimization) لتسهيل توليد الأكواد من خلال التفكير المنطقي.
لمواجهة قيود البيانات القليلة، تم دمج التغذية الراجعة القابلة للتنفيذ مباشرة في حلقة التعلم التعزيزي، مع الاستفادة من نظام مكافآت يعتمد على كل من الدقة المنطقية وتنسيق الهيكل. أظهرت النتائج التجريبية على مجموعة بيانات GSM8K تحسينات كبيرة في جودة التفكير ودقة الأكواد عبر لغات البرمجة الممثلة بشكل ناقص.
تسلط هذه النتائج الضوء على إمكانية نهجنا في benefiting العديد من لغات البرمجة التي تفتقر إلى موارد تدريب واسعة، من خلال الاستفادة من التفكير الرمزي والتغذية الراجعة المعتمدة على المفسر. هل تتوقع أن تسهم هذه البحوث في تعزيز برمجة لغات أقل شهرة؟ شاركونا آرائكم في التعليقات!
من التفكير إلى البرمجة: تحسين GRPO للغات البرمجة الممثلة بشكل ناقص
تقدم هذه الورقة البحثية نهجًا مبتكرًا لتحسين نماذج البرمجة الممثلة بشكل ناقص باستخدام تقنيات التعلم التعزيزي. يتضمن ذلك معالجة التحديات المتعلقة بنقص البيانات لتوليد كود دقيق وقابل للتنفيذ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
