في عالم البيانات الكبير، تعتبر TailedTS خطوة كبيرة للأمام في فهم الأنماط السلوكية لمستخدمي شبكة ويكيبديا. تم إعداد هذه المجموعة الضخمة من البيانات لتكون بمثابة اختبار صارم لنماذج التنبؤ بالسلاسل الزمنية (Time Series Forecasting Models) في ظروف غير تقليدية تتسم بالوزن الثقيل، وعند تواجد مشكلات مثل الزيادة في الصفحات غير المشاهدة.
تتضمن مجموعة بيانات TailedTS حوالي 24.69 مليار نقطة بيانات تغطي تقريباً 3 ملايين صفحة فريدة شهرياً، مما يجعلها واحدة من أكبر قواعد البيانات المتاحة وتحفظ بتنسيق Apache Parquet الفعال. تكشف الأبحاث أن حركة المرور على ويكيبيديا تتبع توزيعاً يبدو أنه يتناسب مع قانون القوة، حيث تمثل 5% من الصفحات أكثر من 70% من إجمالي المشاهدات، مما يوفر بيئة طبيعية لاختبار قوة النماذج في مواجهة التقلبات الشديدة.
إحدى الابتكارات الرئيسية التي تقدمها TailedTS هي إطار عمل لتحديد دورية الحركة (Periodicity Quantification Framework) يعتمد على الانحدار التلقائي الفائق، والذي يكشف أن الصفحات الأكثر مشاهدة تتمتع ببنية دورية أضعف مقارنةً بالصفحات الأقل مشاهدة. لهذه الحقيقة تداعيات مباشرة على كيفية تخصيص الخوادم وتوقعات حركة المرور على المنصات الرقمية الضخمة.
علاوة على ذلك، توفر TailedTS مجموعة من المعايير القياسية للتنبؤ، يتم تقييمها باستخدام مجموعة متنوعة من دوال الخسارة غير غاوسية. وقد أظهرت النتائج أن مقدرات Gaussian التقليدية تتدهور بشكل كبير عند التعامل مع الفئات ذات الحركة العالية، بينما توفر البدائل الأكثر قوة مكاسب متسقة عبر جميع مقاييس الحركة.
يمكن الوصول إلى مجموعة بيانات TailedTS للجمهور على الرابط https://doi.org/10.5281/zenodo.17070469، مما يجعلها أداة قيمة للمشاريع البحثية المستقبلية في هذا المجال.
ثورة البيانات: TailedTS، مجموعة بيانات رائدة لتنبؤ السلاسل الزمنية وتحليل دورية التصفح!
تقدم TailedTS مجموعة بيانات ضخمة مستمدة من مشاهدات صفحات ويكيبيديا، تم تصميمها لاختبار نماذج التنبؤ بالسلاسل الزمنية في ظروف غير تقليدية. تكشف الدراسات أن الصفحات ذات المشاهدات العالية تعاني من بنية دورية أضعف، مما يؤثر على استراتيجيات توزيع الخوادم.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
