إحداث ثورة في البرمجة: MURPHY يغير قواعد لعبة توليد الشيفرات

في عالم التعلم العميق وتكنولوجيا الذكاء الاصطناعي، يظهر نظام MURPHY ليكون رائدًا في تقديم ابتكارات جديدة في مجال توليد الشيفرات. يعتمد MURPHY على التعلم المعزز مع مكافآت قابلة للتحقق (Reinforcement Learning with Verifiable Rewards - RLVR)، وهو منهج يُستخدم عادةً في تدريب نماذج اللغات الضخمة (Large Language Models - LLMs) على مهام التفكير.

يستند MURPHY إلى نموذج تحسين سياسة المجموعة النسبية (Group Relative Policy Optimization - GRPO)، والذي يعاني تقليديًا من حدود تتعلق بمعالجة الأدوار المنفردة، حيث يُعتمد على مكافآت نهائية مستمدة من أزواج الاستجابة. مشكلة هذا النهج تكمن في عدم ملاءمته للبيئات التي تتطلب تحسينات متكررة استجابةً لملاحظات المستخدم.

لكن MURPHY يقدم حلاً مبدعًا: فهو يطور شجرة دورات تفاعلية تعتمد على الملاحظات، حيث يتم ربط الحلول غير الناجحة مع ردود الفعل من البيئة، مما يسمح للنموذج بالاستجابة والتكيف بشكل أفضل. يتم أيضًا تعزيز المكافآت عن طريق استراتيجيات جديدة، مثل استراتيجية أقصى مكافأة (Max Reward - MARS) والمكافأة المتوسطة (Mean Reward - MERS)، مما يساهم في تحسين فعالية العمل الكودي.

عبر تقييمات متعددة لتوليد الشيفرات، استطاع MURPHY تحقيق مكاسب مستقبلية تصل إلى 6% في نسبة النجاح، خاصة في المهام متوسطة وصعبة، حيث تكون الحاجة إلى التصحيح الذاتي أكبر.

باختصار، يُعَد MURPHY خطوة هائلة نحو تحسين طرق توليد وتطوير الشيفرات البرمجية، ويعتبر مثالاً على كيف يمكن للذكاء الاصطناعي أن يساعد المطورين في تحقيق إنجازات غير مسبوقة.

إحداث ثورة في البرمجة: MURPHY يغير قواعد لعبة توليد الشيفرات

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

NVIDIA تطلق SANA-WM: نموذج عالمي مفتوح المصدر يولد فيديوهات دقيقة بدقة 720p باستخدام GPU واحد!

مواجهة بين ماسك وألتمن: تحولات دراماتيكية في المحاكمة الأخيرة!

بذكاء اصطناعي: باحثون يخترقون نظام macOS ويكشفون عن ثغرات مثيرة!