في عالم يتسارع فيه استخدام الذكاء الاصطناعي في البرمجة، أتى تقرير جديد ليقدم لنا ابتكارًا هامًا في هذا المجال. حيث قدم الباحثون نموذج كود سكيلر (CodeScaler)، وهو نموذج مصمم لزيادة كفاءة تدريب نماذج لغات البرمجة الكبيرة (Large Language Models) وتوفير استنتاجات متفوقة في وقت الاختبار.

لقد اعتمد كود سكيلر على أسلوب جديد يُعرف بالتعلم المعزز من المكافآت القابلة للتحقق (Reinforcement Learning from Verifiable Rewards - RLVR)، والذي يسعى للاستفادة من ردود الفعل المستندة إلى تنفيذ الشيفرات البرمجية من خلال اختبارات الوحدة. ومع ذلك، كان هناك تحدي يتعلق بقابلية هذا الأسلوب للتوسع بسبب نقص حالات الاختبار العالية الجودة.

يستند كود سكيلر إلى بيانات تفضيل تم إعدادها بعناية من مشاكل كود موثوقة، ويعتمد على استخراج الكود الواعي للصياغة وتشكيل المكافآت للحفاظ على صحة النتائج، مما يضمن تحسينًا ثابتًا وموثوقًا.

أظهرت النتائج أن كود سكيلر يتفوق بشكل ملحوظ على أساليب التعلم المعزز القائم على التنفيذ، حيث سجل زيادة بمعدل 1.55 نقطة على نموذج Qwen3-8B-Base و4.23 نقطة على نموذج Qwen3-14B-Base عبر أربعة معايير برمجية. ولتعزيز قدرات النموذج، تم التوسع ليشمل 44,000 مشكلة برمجية إضافية من بيانات صناعية، مما حقق تحسنًا بمعدل 14.64 نقطة دون الحاجة لأي حالات اختبار.

خلال عملية الاستنتاج، يظهر كود سكيلر كطريقة فعالة لزيادة الأداء خلال فترة الاختبار، حيث يحقق نتائج مقارنة بأساليب اختبار الوحدة مع تقليل زمن الانتظار بعشر مرات. بالإضافة إلى ذلك، يتجاوز كود سكيلر النماذج المكافآت الحالية على معيار RM-Bench، ليس فقط في مجال البرمجة، ولكن أيضًا في المجالات العامة والاستنتاجية حيث سجل متوسط زيادة قدرها 2.7 نقطة.

إن كود سكيلر يُعتبر بمثابة خطوة كبيرة نحو تحسين الأداء والاستجابة في تطبيقات الذكاء الاصطناعي المتعلقة بالبرمجة، مما يمهد الطريق لمزيد من الابتكارات في هذا المجال المثير. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.