في عالم البرمجة التنافسية، يتمثل التحدي الرئيسي في تحقيق النجاح من خلال استخدام استراتيجيات فعالة ومتنوعة. لكن حتى الآن، كان الأسلوب الشائع هو أخذ عينات متكررة (repeated sampling) مع مصدق (verifier) لتخصيص الموارد الحاسوبية خلال وقت الاختبار، مع استخدام معيار Pass@$K$ كالمقياس القياسي.
لكن المشكلة تكمن في أن السياسات التقليدية تقوم بأخذ K عينات مستقلة من توزيع إجابة واحد، مما يؤدي في كثير من الأحيان إلى تكرار مسارات التفكير ويهدر الميزانية على محاولات مكررة. هذا الفشل يمكن أن يكون مكلفًا، حيث يمكن أن تستوعب العديد من المشاكل استراتيجيات خوارزمية متعددة متميزة، ويتطلب معيار Pass@$K$ مجرد محاولة صحيحة واحدة.
لحل هذه المشكلة، تم اقتراح تحسين جديد يسمى "تحسين سياسة Pass@$K$ المنسق" (Coordinated Pass@$K$ Policy Optimization - CPPO). هذا التحسين يحول عملية توليد Pass@$K$ إلى استكشاف مشترك لاستراتيجيات متعددة. حيث يقوم المخطط بإصدار مجموعة من أربع طرق عالية المستوى (K=4)، ويحاول المساعد إيجاد حل واحد لكل طريقة.
تُدرب سياسة CPPO المشتركة باستخدام مكافأة مخططة مضاعفة، حيث تُمنح النقاط فقط لمجموعات الاستراتيجيات الصحيحة التي تؤدي إلى نجاح مؤكد من قبل المصدق على معيار Pass@$K$.
ثبت من خلال التجارب على ثلاث منصات هي APPS وCodeContests وLiveCodeBench-v6 أن CPPO يعزز الأداء في معيار Pass@$4$ مقارنةً بتحصيل العينات العادية، وطرق التخطيط التقليدية، وتدريب المساعد المنفرد (planner-only SFT)، بالإضافة إلى التعلم المعزز الموجه نحو Pass@$K$ بنفس ميزانية K=4.
فقد حققت CPPO زيادة إحصائية ملحوظة في ستة من تسعة نماذج وبيانات اختبار، مع أكبر زيادة سجلت قدرها +0.16 في أداء نموذج Qwen3.5-9B على LiveCodeBench-v6 مقارنةً بأقوى أساس، حيث ارتفع الأداء من 0.588 إلى 0.748 مع دلالة إحصائية (p < 0.05).
تظهر هذه النتائج فعالية استراتيجية CPPO في تحسين الأداء وتوسيع آفاق توليد الأكواد باستخدام الذكاء الاصطناعي، مما يعكس إمكانات هائلة للمستقبل.
استراتيجية جديدة للذكاء الاصطناعي: تحسين سياسة Pass@$K$ لتوليد الأكواد بفعالية أكبر!
تقدم استراتيجية جديدة في تحسين سياسة Pass@$K$ تهدف لتوليد الأكواد بشكل أكثر كفاءة، من خلال استكشاف مشترك لاستراتيجيات متعددة. ستحقق هذه الطريقة تقدمًا ملحوظًا في الأداء مقارنة بالطرق التقليدية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
