في عالم البرمجة السريع والمتغير، تُعد قدرات نماذج اللغات الضخمة (Large Language Models - LLMs) في ترجمة الشيفرات البرمجية من أهم التطورات التقنية. ومع ذلك، تظل هذه النماذج تواجه تحديات كبيرة عند العمل مع لغات برمجة ذات موارد محدودة مثل Fortran، بالإضافة إلى الأطر الناشئة مثل CUDA. هل من الممكن تحسين أدائها في هذه المجالات؟

تقدم الأبحاث الأخيرة منهجية مبتكرة لتوليد بيانات حوارية تعتمد على تصميم "سؤال-جواب" باستخدام نماذج لغوية مزدوجة. هذا التصميم يستفيد من المعرفة الخارجية من المجمعات (Compilers) وتغذية راجعة من وقت التشغيل (Runtime Feedback)، مما يجعل طريقة جمع البيانات أكثر تفاعلاً ودقة.

بدلاً من الاكتفاء ببيانات الشيفرات التقليدية، يقوم هذا الأسلوب الجديد بتوليد (1) ترجمات موثوقة مع اختبارات وحدوية (Unit Tests) لتقييم الاتساق الوظيفي، و(2) حوارات متعددة الدور (Multi-turn Dialogues) التي توضح عملية التفكير وراء تحسين الترجمة.

تم تطبيق هذه الطريقة على ترجمات شيفرة Fortran إلى C++ و C++ إلى CUDA، مما أسفر عن生成 3.64 ألف و 3.93 ألف حوار على التوالي. وعند تحسين نماذج الذكاء الاصطناعي باستخدام هذه البيانات، تم تحقيق تحسينات ملحوظة في الصحة الوظيفية، وزيادة نسبة نجاح اختبارات الوحدة بنسبة تتجاوز 56% في مهمة C++ إلى CUDA التي تُعتبر صعبة.

تثبت النتائج أن البيانات المولدة تعزز أداء نموذج بوزن مفتوح (7B model) ليحقق نتائج أفضل من أنظمة أكبر معينة في مقاييس رئيسية مثل النجاح في الترجمة.

من الواضح أن الأبحاث والممارسات الحديثة تمهد الطريق أمام تقنيات جديدة لتطوير البرمجة، مما يسهم في تحسين الأداء وتحقيق نتائج أكثر دقة.

ما رأيكم في هذا التطور الهادف لتحسين تجارب تطوير البرمجيات؟ شاركونا في التعليقات.