في عالم البرمجيات الحديث، تلعب أدوات مثل GCC وLLVM دوراً محورياً، حيث تعتمد على تمثيلات وسيطة (Intermediate Representations) لقيادة عمليات التحسين وتوليد الشيفرات. لكن، تظهر الاختلافات الهيكلية والدلالية بين هذه التمثيلات كحواجز كبيرة تعيق التفاعل بين الأدوات المختلفة، مما يحد من استخدام المترجمات الأمامية والخلفية وكذلك مسارات التحسين عبر لغات البرمجة وأنظمة التحويل.

تواجه طرق الترجمة التقليدية القائمة على القواعد صعوبات في تجاوز هذه التحديات، حيث إن تعقيدها وتكاليف صيانتها تعيق اعتمادها بشكل عملي. ولكن، هنا تظهر نماذج اللغات الضخمة (LLMs) كتقنية ناشئة تقدم بديلاً مدفوعاً بالبيانات، حيث يمكنها تعلم التحويلات المعقدة بين تمثيلات المترجمين المتنوعة مباشرة من أمثلة تمثيلية كافية.

قام الباحثون بتقديم نموذج IRIS-14B، وهو نموذج تحويل خاص يحتوي على 14 مليار معلمة، تم تدريبه خصيصًا لترجمة GIMPLE (كما تصدره GCC) إلى LLVM IR (كما تصدره LLVM). تم تدريب النموذج على تمثيلات مرتبطة مستخرجة من شيفرات C وتقييم أدائه على التحويل من GIMPLE إلى LLVM IR باستخدام بيانات شيفرات حقيقية ومشكلات برمجية تنافسية.

وفقًا لأفضل معرفتنا، يعتبر IRIS-14B هو النموذج الأول الذي تم تدريبه تحديدًا لترجمة التمثيلات البينية. وقد أظهر أداءً دقيقًا يتجاوز النموذجات الشائعة المستخدمة، بما في ذلك أكبر النماذج المتاحة اليوم، حيث تفوق بنسبة تصل إلى 44 نقطة مئوية.

يدعم التحويل المقترح دمج نماذج اللغات الضخمة كعناصر تكامل ضمن هياكل المترجمين الهجينة، حيث تعمل نماذج مثل IRIS-14B كطبقات تداخلية تمكّن التدفقات بين الأدوات المختلفة دون الحاجة لتعديل العمليات القائمة. بينما تستمر البنية التحتية للمترجم التقليدي في القيام بعمليات التحويل والتحسين المحددة.

هذا التطور يسهل بشكل كبير تفاعل الأدوات البرمجية ويسهل العمل عبر مجموعة واسعة من لغات البرمجة، مما يفتح أفقًا جديدًا في عالم البرمجة.