في عالم تقنيات الذكاء الاصطناعي، يعتمد أداء نماذج التعلم الآلي (Machine Learning) بشكل كبير على توفر مجموعات ضخمة من البيانات الموسومة. ومع ذلك، يمكن أن تحتوي البيانات التي تُجمع من مصادر متنوعة على ضوضاء في التصنيفات. ولمواجهة هذا التحدي، أثبتت الأبحاث الحديثة أنه يمكن أن توجد مجموعات فرعية من بيانات التدريب، يمكن من خلالها تحقيق أداء مقارب لما يتم تحقيقه عند التدريب على مجموعة بيانات خالية من الضوضاء.
تستخدم الأسلوب المعروف باسم cutstats، وهو نظام يعتمد على خوارزمية الجيران الأقرب (k-nearest neighbors) للكشف عن عينات ذات ضوضاء منخفضة. لكن، كانت فعالية هذا الأسلوب في البيانات ذات الأبعاد العالية غير مستكشفة بشكل كافٍ. ومن خلال بحثنا، تمكنا من إثبات أن أداء المصنف الذي تم تدريبه على مجموعة فرعية من بيانات ضوضاء المُختارة عبر cutstats يتأثر بدقة خوارزمية الجيران الأقرب.
علاوة على ذلك، أظهرنا في بيئات الضوضاء، أن استغلال تثبيت البيانات والمعرفة بالتناظرات الأساسية يمكن أن يحسّن بشكل كبير من أداء الجيران الأقرب، ويقربه من المصنف الأمثل بايزي (Bayes optimal classifier)، حتى في حالات الأبعاد العالية. وأخيرا، تمكنا من إثبات أنه في السيناريوهات الواقعية، حيث تتوفر معلومات جزئية حول التناظرات الأساسية، يمكن أن تسهل التمثيلات الثابتة المتعلمة عملية التعرف على مجموعات شبه مثالية.
تعتبر هذه الابتكارات ذات ثروة كبيرة لعالم التعلم الآلي، حيث أنها تفتح آفاق جديدة لكيفية التعامل مع ضوضاء البيانات وتحسين أداء النماذج.
تسخير تناظر البيانات لاختيار أفضل مجموعة تدريبية في ظل الضوضاء التصنيفية!
تكشف الدراسة الجديدة أن استغلال تناظر البيانات يمكن أن يحسن أداء نماذج التعلم الآلي في بيئات ضوضاء التصنيف. اكتشف كيف يمكن لطرق مبتكرة أن تحدد مجموعات تدريبية مثالية رغم التحديات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
