في عالم التعلم العميق وتكنولوجيا الذكاء الاصطناعي، يظهر نظام MURPHY ليكون رائدًا في تقديم ابتكارات جديدة في مجال توليد الشيفرات. يعتمد MURPHY على التعلم المعزز مع مكافآت قابلة للتحقق (Reinforcement Learning with Verifiable Rewards - RLVR)، وهو منهج يُستخدم عادةً في تدريب نماذج اللغات الضخمة (Large Language Models - LLMs) على مهام التفكير.
يستند MURPHY إلى نموذج تحسين سياسة المجموعة النسبية (Group Relative Policy Optimization - GRPO)، والذي يعاني تقليديًا من حدود تتعلق بمعالجة الأدوار المنفردة، حيث يُعتمد على مكافآت نهائية مستمدة من أزواج الاستجابة. مشكلة هذا النهج تكمن في عدم ملاءمته للبيئات التي تتطلب تحسينات متكررة استجابةً لملاحظات المستخدم.
لكن MURPHY يقدم حلاً مبدعًا: فهو يطور شجرة دورات تفاعلية تعتمد على الملاحظات، حيث يتم ربط الحلول غير الناجحة مع ردود الفعل من البيئة، مما يسمح للنموذج بالاستجابة والتكيف بشكل أفضل. يتم أيضًا تعزيز المكافآت عن طريق استراتيجيات جديدة، مثل استراتيجية أقصى مكافأة (Max Reward - MARS) والمكافأة المتوسطة (Mean Reward - MERS)، مما يساهم في تحسين فعالية العمل الكودي.
عبر تقييمات متعددة لتوليد الشيفرات، استطاع MURPHY تحقيق مكاسب مستقبلية تصل إلى 6% في نسبة النجاح، خاصة في المهام متوسطة وصعبة، حيث تكون الحاجة إلى التصحيح الذاتي أكبر.
باختصار، يُعَد MURPHY خطوة هائلة نحو تحسين طرق توليد وتطوير الشيفرات البرمجية، ويعتبر مثالاً على كيف يمكن للذكاء الاصطناعي أن يساعد المطورين في تحقيق إنجازات غير مسبوقة.
إحداث ثورة في البرمجة: MURPHY يغير قواعد لعبة توليد الشيفرات
تعرفوا على MURPHY، النظام الذي يستخدم التعلم المعزز لتحسين توليد الشيفرات عبر تفاعل متعدد الأدوار. يتميز MURPHY بقدرته على الاستفادة من الملاحظات لتصحيح الأخطاء وتحقيق نتائج مذهلة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
