في ظل التقدم المذهل الذي تشهده نماذج اللغة الكبيرة (LLMs) في توليد البيانات الجدولية، يظهر تحدي جديد يهدد الخصوصية. لقد أظهرت الأبحاث أن هذه النماذج، أثناء إنتاج البيانات، تبدي ميلاً ملحوظاً للتسريبات عن طريق تكرار الأنماط العددية التي حفظتها خلال فترة التدريب، مما يعرض بيانات حساسة للخطر.

تتمثل الطريقتان الرئيستان اللتان تم استخدامهما لتكييف هذه النماذج مع توليد البيانات الجدولية في:
1. **تخصيص النماذج الأصغر** عن طريق التدريب المباشر على مجموعات بيانات جدولية.
2. **توجيه النماذج الأكبر** باستخدام أمثلة تم توفيرها في السياق.

قدمت الدراسة، التي تم نشرها على arXiv، هجوماً جديداً يُعرف باسم **هجوم استنتاج الخصوصية بدون صندوق (LevAtt)**، والذي يستهدف تسلسلات الأرقام في الملاحظات التي تم إنشاؤها. باستخدام هذه التقنية، تم الكشف عن تسريبات خصوصية كبيرة عبر مجموعة متنوعة من النماذج والمجموعات، وفي بعض الحالات، كانت النتائج مثالية كنموذج لتصنيف الأعضاء في النماذج الحديثة.

تماشياً مع النتائج التي توصلت إليها الدراسة، تم اقتراح طريقتين لحماية الخصوصية، تشمل استراتيجية جديدة تقوم بتغيير الأرقام أثناء عملية التوليد، مما يساعد على تقليل تأثير الهجمات مع الحفاظ على دقة البيانات وجودتها.

التحذيرات المتزايدة من تسريبات البيانات تضع تصميم نماذج الذكاء الاصطناعي (AI) تحت المجهر، مما يستدعي ضرورة التفكير في تدابير فعّالة لحماية الخصوصية. لذا، لم يعد هناك مجال للتهاون، ويجب على الباحثين والمطورين الانتباه لمخاطر الخصوصية التي قد تنجم عن التقنيات الحديثة. كيف ترى هذه الاشكالية وما هي الحلول التي تقترحها؟ شاركنا آرائك في التعليقات!