تُعتبر عملية تحويل السمات المستمرة إلى بيانات مفيدة في نماذج الشجرية مثل C4.5 وغابات العشوائية من التحديات الكبرى في معالجة البيانات، خاصة مع زيادة أبعاد البيانات. في هذا السياق، عُرضت تقنية تقسيم MSD (Mean and Standard Deviation Splitting) كحل مبتكر يساعد في تحسين الأداء. وتُركز هذه التقنية على استخدام المتوسط والانحراف المعياري لتقسيم البيانات بشكل فعّال.
لكن ما يميز الدراسة الأخيرة هو دخول تقنية تقسيم MSD التكيفي (Adaptive MSD-Splitting)، التي تُقدّم معالجة أكثر مرونة للبيانات المنحرفة. فبينما كانت التقنيات التقليدية تتبع قطعاً ثابتة بناءً على الانحراف المعياري، قد تؤدي هذه الأساليب إلى فقدان فادح للمعلومات، خاصة في الأوساط البيولوجية والمالية الحقيقية. ولذلك، جاء تقسيم MSD التكيفي ليواجه هذه المشكلة من خلال تعديل معامل الانحراف بشكل ديناميكي بناءً على ميول الميزات، مما يُساعد على الحفاظ على دقة التمييز في البيانات الكثيفة.
كما تم دمج AMSD في أساليب التجميع، حيث تم تقديم إطار عمل مخصص يسمى Random Forest-AMSD (RF-AMSD). وأظهرت التجارب المنفذة على مجموعة من البيانات، مثل بيانات دخل التعداد ومرض القلب وسرطان الثدي ونوع غابة البيانات، أن AMSD تحقق تحسيناً في الدقة بنسبة تتراوح بين 2 إلى 4% مقارنة بالطريقة التقليدية، فيما حافظت على تكاليف زمنية قريبة من O(N) بدلاً من O(N log N) المستخدم في البحث الشامل.
تأثرت النتيجة النهائية في دقة نموذج غابات العشوائية سلبياً، مما يبرز فاعلية تقنيات الإحصاء التكيفية في تعزيز التعلم الجماعي على نطاق واسع.
تحويل البيانات الضخمة: تحسين تقنيات C4.5 وغابات العشوائية من خلال تقسيم MSD التكيفي
تسعى تقنية تقسيم MSD التكيفي إلى تحسين معالجة البيانات الضخمة، مع التركيز على زيادة الدقة والكفاءة في الأساليب الشجرية. أظهرت النتائج أن هذه التقنية تحقق زيادة ملحوظة في دقة النماذج مع الحفاظ على تكاليف حسابية معقولة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
