في عصر التكنولوجيا الحديثة، تُستخدم نماذج اللغة الكبيرة (LLMs) بشكل متزايد في تطوير البرمجيات، ولكنها تواجه تحديات كبيرة تتعلق بالتحايل وحقوق التأليف. حيث يمكن لهذه النماذج أن تُعيد إنتاج أمثلة التدريب بطريقة حرفية ودون نسب الفضل لأصحابها، مما يثير الشكوك القانونية والأخلاقية حول الانتحال والامتثال للترخيص.

للحد من هذه القضايا، تم تقديم نظام جديد يُدعى SOURCETRACKER، وهو عبارة عن وحدة تشفير تحتوي على 300 مليون معلمة، مصممة خصيصًا لاسترجاع الشيفرات. يُبرز النظام عملية تتبع الأصول من خلال خط أنابيب هجيني يحمل اسم HYBRIDSOURCETRACKER (HST). يقوم HST بالتركيز أولًا على مجموعة ضيقة من الشيفرات المحتملة عبر البحث المتجهي، ثم يعيد ترتيب تلك المرشحات باستخدام تقنية وينوينغ (Winnowing) للتأكد من الأصالة.

تم تدريب النظام وتقييمه على مجموعة فرعية تحتوي على 10 مليون شيفرة من مجموعة بيانات THESTACKV2، وتم استعراض كل من الشيفرات المكررة والمعدلة التي تحاكي تغييرات معرّفات واقعية. في اختبارات من نوع in vitro تتضمن 100,000 شيفرة مع استعلامات معدلة، أظهر نظام التعقب الهجين نتائج متفوقة مقارنة بطريقة وينوينغ، مع الحفاظ على تعقيد استعلام أسي.

الأمر المثير للاهتمام هو أنه حتى مع عدم وضع الكثير من الشيفرات كنقطة مرجعية حقيقية، فإن العديد منها لا يزال مماثلاً جداً للمصادر المتوقعة، وبالأخص عندما تكون نوافذ السياق أطول، مما يجعل هذه النتائج مفيدة للمستخدمين النهائيين. بشكل عام، توفر البيانات التي تم جمعها دلائل قوية على أن دمج البحث المتجهي مع تقنية بصمات الأصابع يمكّن من تعقب الأصول بدقة عالية وبطريقة قابلة للتوسع في البرمجيات المُنتجة بواسطة نماذج اللغة الكبيرة.

مستقبل تقنيات البرمجة يبدو مشوقًا، فكيف يمكن أن تؤثر هذه التطورات في تجربتنا كمطورين ومستخدمين للبرمجيات؟ شاركونا آرائكم في التعليقات!