تُعتبر مشكلة عدم توازن مجموعات البيانات من القضايا الحيوية في عالم التعلم الآلي، حيث تتسبب في انحياز التنبؤات نحو الفئة الأكثر عدداً مما يؤثر سلباً على أداء المصنفات. في هذا المقال، سنستعرض دراسة شاملة تلقي الضوء على أساليب توازن البيانات، بدءًا من تقنيات زيادة العينة الأساسية مثل تقنية زيادة العينة للأقلية الاصطناعية (SMOTE) وما يرتبط بها من أنواع مثل Borderline SMOTE وK-Means SMOTE وSafe-Level SMOTE، وصولًا إلى أساليب متقدمة مثل MWMOTE وAMDO.
تشمل هذه الدراسة كذلك نماذج مؤ生成 تشاركية مثل الشبكات التنافسية التوليدية (GANs) ونماذج التشفير التلقائي المتغير (VAEs)، وأساليب تقليل العينة مثل NearMiss وTomek Links.
سيتم وفقًا لهذا الاستعراض تناول أساليب الهجين (المختلطة) مثل SMOTE-ENN وSMOTE-Tomek، والاستراتيجيات المجمعة مثل SMOTEBoost وRUSBoost، واستراتيجيات الغابات العشوائية المتوازنة (Balanced Random Forest) واختيارات من جانب واحد (One-Sided Selection).
تقدم الدراسة تحليلًا نقديًا لأساليب كل تقنية، بما في ذلك الافتراضات الأساسية والآليات التشغيلية المناسبة لمختلف خصائص البيانات، مثل الأبعاد العالية، وتنوع الخصائص، وتداخل الفئات، والضوضاء. وتظهر النتائج الرئيسية أنه لا توجد تقنية واحدة تتفوق على الأخرى بشكل عام، بل إن الاختيار الأمثل يعتمد بشكل كبير على خصائص مجموعة البيانات ونوع المصنف ومقاييس التقييم.
تختتم الدراسة بتحديد اتجاهات البحث الناشئة، بما في ذلك التعلم الذاتي من أجل التغلب على عدم التوازن، وزيادة العينة باستخدام نماذج انتشائية، وإعادة التعيين التي تحافظ على التوزيع، وتقطير المعرفة للجوانب المختلطة، وتكييف النماذج الأساسية مع التوزيعات المنحازة، مما يوفر إرشادات عملية للممارسين ويحدد خريطة طريق للتطوير المنهجي في المستقبل.
استراتيجيات توازن البيانات: استعراض شامل لأساليب إعادة التعيين والتعزيز
تُعتبر مجموعات البيانات غير المتوازنة تحدياً مستمراً في التعلم الآلي. تشمل هذه الدراسة استعراضاً مفصلاً لأساليب توازن البيانات، مشيرةً إلى تقنيات متقدمة وأفضل الممارسات لتحسين دقة التصنيف.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
