في عالم يتسارع فيه استخدام [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) في البرمجة، أتى تقرير [جديد](/tag/جديد) ليقدم لنا ابتكارًا هامًا في هذا المجال. حيث قدم الباحثون [نموذج](/tag/نموذج) [كود](/tag/كود) سكيلر (CodeScaler)، وهو [نموذج](/tag/نموذج) مصمم لزيادة [كفاءة](/tag/كفاءة) [تدريب](/tag/تدريب) [نماذج لغات](/tag/[نماذج](/tag/نماذج)-[لغات](/tag/لغات)) [البرمجة](/tag/البرمجة) الكبيرة (Large Language [Models](/tag/models)) وتوفير [استنتاجات](/tag/استنتاجات) متفوقة في وقت الاختبار.
لقد اعتمد [كود](/tag/كود) سكيلر على أسلوب [جديد](/tag/جديد) يُعرف بالتعلم المعزز من [المكافآت](/tag/المكافآت) القابلة للتحقق ([Reinforcement Learning](/tag/reinforcement-learning) from Verifiable Rewards - [RLVR](/tag/rlvr))، والذي يسعى للاستفادة من ردود الفعل المستندة إلى [تنفيذ](/tag/تنفيذ) الشيفرات البرمجية من خلال [اختبارات](/tag/اختبارات) الوحدة. ومع ذلك، كان هناك [تحدي](/tag/تحدي) يتعلق بقابلية هذا الأسلوب للتوسع بسبب نقص حالات الاختبار العالية الجودة.
يستند [كود](/tag/كود) سكيلر إلى [بيانات تفضيل](/tag/[بيانات](/tag/بيانات)-تفضيل) تم إعدادها بعناية من مشاكل [كود](/tag/كود) موثوقة، ويعتمد على استخراج [الكود](/tag/الكود) الواعي للصياغة وتشكيل [المكافآت](/tag/المكافآت) للحفاظ على [صحة](/tag/صحة) النتائج، مما يضمن تحسينًا ثابتًا وموثوقًا.
أظهرت النتائج أن [كود](/tag/كود) سكيلر يتفوق بشكل ملحوظ على [أساليب](/tag/أساليب) [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) القائم على التنفيذ، حيث سجل زيادة بمعدل 1.55 نقطة على [نموذج](/tag/نموذج) Qwen3-8B-Base و4.23 نقطة على [نموذج](/tag/نموذج) Qwen3-14B-Base [عبر](/tag/عبر) أربعة [معايير برمجية](/tag/[معايير](/tag/معايير)-برمجية). ولتعزيز قدرات النموذج، تم [التوسع](/tag/التوسع) ليشمل 44,000 مشكلة برمجية إضافية من [بيانات](/tag/بيانات) صناعية، مما حقق تحسنًا بمعدل 14.64 نقطة دون الحاجة لأي حالات اختبار.
خلال عملية الاستنتاج، يظهر [كود](/tag/كود) سكيلر كطريقة فعالة لزيادة [الأداء](/tag/الأداء) خلال فترة الاختبار، حيث يحقق نتائج مقارنة بأساليب اختبار الوحدة مع تقليل زمن الانتظار بعشر مرات. بالإضافة إلى ذلك، يتجاوز [كود](/tag/كود) سكيلر [النماذج](/tag/النماذج) [المكافآت](/tag/المكافآت) الحالية على معيار RM-Bench، ليس فقط في مجال البرمجة، ولكن أيضًا في المجالات العامة والاستنتاجية حيث سجل متوسط زيادة قدرها 2.7 نقطة.
إن [كود](/tag/كود) سكيلر يُعتبر بمثابة خطوة كبيرة [نحو](/tag/نحو) [تحسين الأداء](/tag/[تحسين](/tag/تحسين)-[الأداء](/tag/الأداء)) والاستجابة في [تطبيقات الذكاء الاصطناعي](/tag/[تطبيقات](/tag/تطبيقات)-الذكاء-الاصطناعي) المتعلقة بالبرمجة، مما يمهد الطريق لمزيد من [الابتكارات](/tag/الابتكارات) في هذا المجال المثير. ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات).
كود سكيلر: ثورة في تدريب نماذج لغة البرمجة وتحسين النتائج باستخدام نموذج المكافآت
طرحت دراسة جديدة نموذج كود سكيلر الذي يعزز تدريب نماذج لغات البرمجة من خلال نموذج مكافآت مبتكر، مما يحقق أداءً متفوقًا في اختبار الكود. هذا التطور يعد خطوة مهمة نحو تحسين فعالية نماذج الذكاء الاصطناعي في البرمجة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
