في عالم البرمجة، يشكل اكتشاف النسخ البرمجية عبر اللغات (Cross-Language Code Clone Detection - X-CCD) تحدياً مثيراً، حيث تفتقر البرامج المتشابهة في المعنى المكتوبة بلغات مختلفة إلى الكثير من أوجه التشابه السطحية. مع تطور نماذج اللغات الضخمة (Large Language Models - LLMs)، وقدرتها على الكشف عن النسخ البرمجية، إلا أن استخدامها كنماذج مغلقة يثير بعض القلق حول التكاليف، القابلية للتكرار، الخصوصية، وموثوقية تنسيق المخرجات.

التحدي الأكبر يكمن في أن النماذج المفتوحة المصدر غالباً ما تواجه صعوبة في اتباع المطالبات الموجهة لوضع الفكر وإنتاج مخرجات يمكن ربطها باستمرار مع تسميات النسخ الثنائية. للتصدي لهذه القيود، تم اقتراح إطار عمل لنقل المعرفة يقوم بنقل القدرة على التفكير من نموذج DeepSeek-R1 إلى نماذج طلابية مفتوحة المصدر مدمجة تستخدم في X-CCD.

عبر استخدام أزواج شيفرات برمجية متعددة اللغات مستمدة من مشروع CodeNet، تم بناء بيانات تدريب اصطناعية موجهة نحو الفكر وتحسين نماذج Phi3 وQwen-Coder باستخدام محولات LoRA. وقد تم كذلك تقديم طرق استقرار الاستجابة، بما في ذلك المطالبة بالنهاية القسرية، والرأس التصنيفي الثنائي، ورأس التصنيف المتباين، وتم تقييم سلوك النماذج باستخدام مقاييس تنبؤية ومعدل الاستجابة.

تشير التجارب التي أجريت على Python-Java وRust-Java وRust-Python وRust-Ruby إلى أن نقل المعرفة يحسن من موثوقية النماذج المدمجة، وغالباً ما يقود إلى تحسين الأداء التنبؤي، خاصة تحت تغيير التوزيع. بالإضافة إلى ذلك، فإن تنويعات رأس التصنيف تقلل بشكل كبير من زمن الاستدلال مقارنة بالاستدلال القائم على التوليد.

بالمجمل، تظهر نتائجنا أن نقل المعرفة الموجه نحو الفكر المدمج مع استقرار الاستجابة يجعل النماذج المفتوحة المصدر أكثر عملية وموثوقية في اكتشاف النسخ البرمجية بين اللغات.