في عصر تكنولوجيا المعلومات، أصبحت نماذج اللغة الكبيرة (LLMs) جزءاً لا يتجزأ من تطبيقات مثل الإجابة على الأسئلة وإنشاء المحتوى. ومع تزايد الاعتماد على هذه النماذج، برزت الحاجة إلى أساليب موثوقة لنسبة المحتوى (content attribution). واحدة من الأساليب الواعدة هي العلامات المائية (watermarking)، ولكن تقنيات العلامات المائية الموجودة حاليًا تتيح إما إشارات ثنائية فقط أو تساهم في تشويه توزيع العينة، مما يقلل من جودة النص.

تعرض تقنية MirrorMark نهجًا جديدًا يتميز بتقنية العلامات المائية متعددة بت (multi-bit watermarking) والمجانية من التشوه. تتمثل القوة الرئيسية لهذه التقنية في القدرة على عكس العشوائية في عملية العينة بطريقة تحافظ على جودة النص، مما يساعد على تضمين رسائل متعددة بت دون تغيير توزيع احتمالية الرموز.

لتحسين القدرة على التعرف، تدخل MirrorMark تقنية مجدولة تعتمد على السياق (context-based scheduler) لضمان توزيع الرموز عبر مواقع الرسائل بشكل متوازن، مع الحفاظ على مرونة كبيرة ضد الإدراجات والحذوفات.

تتضّح فعالية MirrorMark من خلال التجارب التي تُظهر أن جودة النص الناتج تتساوى مع تلك المعمول بها في عدم استخدام العلامات المائية، بينما تحقّق زيادة كبيرة في قوة التعرف. على سبيل المثال، مع تضمين 54 بت في 300 رمز، تمثل تحسينًا بنسبة 8-12% في دقة البت، مع القدرة على تحديد ما يصل إلى 11% من النصوص المائية بشكل صحيح بمعدل إيجابي خاطئ يبلغ 1% فقط.

باختصار، تعتبر MirrorMark خطوة جوهرية نحو تحسين موثوقية وتطبيقات نماذج اللغة الكبيرة.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.