في عصر المعلومات الرقمية، أصبح تجميع البيانات من الويب ضروريًا لتحسين جودة المحتوى الذي تنشئه نماذج اللغات الضخمة (Large Language Models). لكن، يثير هذا الأمر تساؤلات حول استقرار المواقع والاعتبارات القانونية والأخلاقية. يعتمد العديد من أصحاب المواقع على بروتوكولات التحكم في الوصول، مثل بروتوكول استبعاد الروبوتات (Robots Exclusion Protocol)، للحد من أنشطة الحصاد الخاصة بالنماذج اللغوية.
لكن، كيف يمكن لهؤلاء المالكين تحديد أدوات الحصد التي يرغبون في تقييدها؟ في دراسة جديدة، تم تقديم تقنية مبتكرة تعتمد على استخدام رموز الكناري (Canary Tokens) للكشف عن هذه الأدوات بشكل تلقائي ودقيق. تقوم هذه التقنية بتوزيع رموز فريدة على كل أداة حصد زائرة، ومن ثم تسأل النماذج اللغوية عن المعلومات المتعلقة بالمواقع.
إذا كانت الأداة تنتج مخرجات تحتوي بشكل متكرر على الرموز الفريدة، فإنها تقدم دليلًا على تعرضها لتلك الأداة. من خلال إجراء تجارب على 22 نظام نموذج لغوي مختلف، أثبتت الدراسة أن هذه الطريقة فعالة في تحديد أدوات الحصد التي تغذي النماذج، بما في ذلك تلك التي لم تُكشف أو تُعلن عنها الشركات.
هذا الابتكار يفتح آفاقًا جديدة لأصحاب المواقع في التحكم في الأنشطة غير المرغوب فيها، مما يسهم في حماية استقرار مواقعهم وأنظمتهم. هل سنشهد مزيدًا من التقنيات التي تساعد في ضبط عمليات جمع البيانات؟ تابعونا للحصول على المزيد من الأخبار المثيرة في عالم الذكاء الاصطناعي!
كيف يمكن الكشف عن أدوات حصد المعلومات باستخدام رموز الكناري؟
تقدم الدراسة الجديدة تقنية مبتكرة لتحديد أدوات الحصاد الإلكترونية (Scrapers) المستخدمة في تجميع البيانات للنماذج اللغوية الضخمة، مما يتيح لأصحاب المواقع التحكم في هذه الأنشطة. تستخدم هذه التقنية رموز الكناري لتمييز الأدوات وتوفير معلومات قيمة حول استخدامها.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
