في عالم البرمجة الحديث، أصبحت نماذج اللغات الكبيرة (LLMs) مصدر اهتمام متزايد، خاصة في مهام توليد الكود. بينما تم تقييم قدراتها بشكل واسع في بيئات البرمجة العامة المعتمدة على تسريع المعالجة بواسطة وحدات المعالجة الرسومية (GPU) مثل PyTorch وCUDA، إلا أن إمكانياتها في حوسبة الأداء العالي المعتمدة على وحدات المعالجة المركزية (CPU) لم يتم استكشافها بشكل كافٍ، مما يثير تساؤلات حول فعاليتها عبر أنظمة متعددة.

لمعالجة هذه الفجوة، تم تقديم CodegenBench، وهو مجموعة مرجعية شاملة تهدف إلى تقييم قدرة نماذج اللغات الكبيرة على توليد كود متوازي عالي الكفاءة عبر ثلاث منصات هاردوير متميزة: x86_64، Sunway، وKunpeng. تتضمن هذه المجموعة 106 روتينات أساسية من وظائف الجبر الخطي (BLAS) التي تشكل قاعدة أساسية، إلى جانب 20 نواة حسابية متخصصة تم تكييفها لكل من العماریات الفائقة الفريدة.LeetSunway وLeetKunpeng.

أظهرت النتائج أن النماذج اللغوية الحديثة قادرة على توليد كود محسن للعماریات الشائعة مثل x86_64، إلا أنها تعاني من تدهور كبير في الأداء عند التعامل مع العماریات الخاصة التي تفتقر إلى وثائق عامة كافية وبيانات تدريب، مما يبرز القيود الحرجة في قدرة التعميم عبر الأنظمة المختلفة. علاوة على ذلك، توضح التحليلات حول العوامل المؤثرة في جودة الكود، مثل طول التنفيذ وتعقيد المهمة، أن النماذج الحالية تكون أكثر فعالية في التعامل مع المشكلات المتوسطة الصعوبة التي تتطلب مقتطفات كود موجزة.

للكشف عن هذه الإمكانيات بشكل أفضل، قرر الباحثون فتح مصادر مجموعة البيانات والبنية التحتية للتقييم الآلي لتسهيل الأبحاث المستقبلية في مجال توليد الكود عالي الأداء المعتمد على نماذج اللغات الكبيرة. يمكنكم الاطلاع على الموارد المتاحة عبر الروابط: CodegenBench وCodegenBenchDataset.

ما رأيكم في هذه التطورات الجديدة؟ هل تعتقدون أن نماذج الذكاء الاصطناعي ستتمكن من تجاوز هذه التحديات؟ شاركونا في التعليقات.