تعتبر عملية التدريب المسبق (Pretraining) من أهم الخطوات في تطوير نماذج اللغة الضخمة (Large Language Models - LLMs)، إلا أن غموض بيانات التدريب يجعل من الصعب تحليل النماذج ويثير مخاوف تتعلق بالأخلاقيات والقانون والعدالة. لذا، أصبحت الحاجة الملحة للكشف عن ما إذا كانت مجموعات بيانات معينة قد استُخدمت أثناء التدريب أساسياً.

تُظهر الأساليب الحالية في هذا المجال بعض القيود، خاصةً أنها تعتمد غالباً على الوصول إلى توزيعات الاحتمالات للنموذج، مما يجعلها غير ملائمة للنماذج المغلقة المصدر التي تتيح فقط واجهات الإدخال والإخراج. هنا تأتي الابتكارات المتمثلة في تقنية كشف بيانات التدريب في المستوى النصي المقنع (Masked Corpus-level Pretraining Data Detection - MC-PDD).

تستخدم MC-PDD أسلوباً مبتكراً مستوحى من نمذجة اللغة المقنعة، حيث تقوم هذه التقنية بتعزيز فعالية الاحتفاظ بالمعلومات من خلال إخفاء رموز معينة في كل نص، ثم تدفع النموذج للتنبؤ بالمحتوى المفقود. بعد ذلك، يتم تقييم ما إذا كانت الفروق في معدلات دقة التنبؤ بين مجموعة بيانات مرشحة ومجموعة مرجعية غير تابعة لها لها دلالات إحصائية مهمة.

تُظهر التجارب التي أجريت باستخدام هذه التقنية نتائج واضحة ومتسقة في معدلات دقة التنبؤ بين البيانات المدربة سابقاً والبيانات غير المرئية عبر ثلاثة مجموعات بيانات، لكل من نماذج LLM مفتوحة المصدر ومغلقة المصدر. وبالرغم من عملها تحت ظروف صارمة للنماذج المغلقة، تُظهر MC-PDD أداءً مقارباً للأساليب الحالية.

تفتح هذه المقاربة آفاقاً جديدة في تطبيقات مثل تدقيق النماذج والتحقق من حقوق بيانات النشر، مما يعزز إمكانية الشفافية في استخدام الذكاء الاصطناعي. وعند قبولها، سيتم إطلاق الكود ومجموعات البيانات للجمهور.

ما رأيكم في هذا التطور الثوري؟ شاركونا في التعليقات!