في عالم الذكاء الاصطناعي المتطور، تبرز قضية غسيل البيانات كأحد التحديات الكبيرة التي تواجه أصحاب حقوق البيانات. عندما يتم استخدام بيانات غير مصرح بها في تدريب النماذج اللغوية الكبيرة (LLM)، يصبح من الضروري اكتشاف هذه الممارسات لحماية حقوق الملكية الفكرية.

تشير الأبحاث الحديثة إلى أن أصحاب حقوق البيانات يمكنهم كشف الاستخدام غير المصرح به عبر استعلامات باستخدام عينات خاصة بهم. غالبًا ما تكشف أداءات أعلى على العينة مقارنة بالبيانات غير المدربة عن كونها جزءًا من مجموعة تدريب النموذج. ومع ذلك، فإن هذه الاكتشافات تصبح هشة في ظل ممارسة غسيل البيانات، حيث يتم تحويل الشكل الأسلوبي للبيانات مع الحفاظ على المعلومات الحيوية لإخفاء أصل البيانات.

لكن ماذا لو تم تدريب النموذج تمامًا على نسخ مغسولة من البيانات؟ في هذه الحالة، يصبح أداء النموذج مع النسخ الأصلية أقل، مما يمحو العلامات التي تعتمد عليها طرق الكشف التقليدية.

للتغلب على هذه المشاكل، تم تطوير تقنية جديدة تُعرف بـ "استنتاج تحويل الغسيل غير المعروف". تعتمد هذه التقنية على الوصول الأسود إلى النموذج المستهدف، وتقوم بتوليد استعلامات تحاكي البيانات المغسولة من خلال نموذج مساعد. ولأن مساحة البحث عن تحولات الغسيل الحقيقية غير محدودة، يتم تجريد هذه العملية إلى هدف تحويل عالي المستوى (مثل "إعادة كتابة شعرية") وتفاصيل ملموسة (مثل "مع صور حية").

تقدّم هذه التقنية، المعروفة باسم "عودة بيانات التوليد" (SDR)، وسيلة فعالة لتحديد الأهداف المحتملة للتوليد لضيق مساحة البحث. يقوم النظام بتحسين التفاصيل بشكل تدريجي حتى تتمكن الاستعلامات المُركبة من استقطاب إشارات كشف أكثر قوة من النموذج المستهدف.

عند تقييمها على معيار MIMIR الذي يعكس ممارسات غسيل البيانات المتنوعة والعائلات المختلفة للنماذج اللغوية (مثل Pythia وLlama2 وFalcon)، أثبتت تقنية SDR فعاليتها في تعزيز الكشف عن استخدام البيانات بشكل غير مصرح به، مقدمةً بذلك حلًا عمليًا لمكافحة غسيل البيانات. يسعى هذا الابتكار إلى توفير أداة مهمة لأصحاب الحقوق لحماية بياناتهم وضمان استخدام عادل لها.