في عالم الذكاء الاصطناعي، تعتبر مجموعة البيانات من العوامل الحاسمة لتحقيق أداء متميز للنماذج. ومع ذلك، تعاني العديد من النماذج من مشكلات تتعلق بعدم توازن الفئات (Class Imbalance) والبيانات الملوثة (Noisy Annotations)، مما يؤثر سلبًا على أدائها، خاصة عندما يتعلق الأمر بالفئات الأقل تمثيلًا.

وفي هذا السياق، يقدم التعلم النشط (Active Learning) حلاً مبتكرًا يوفر طريقة فعالة لاختيار العينات الأكثر إفادة لتعزيز عملية التعلم.

نقدم إطار عمل جديد للتعلم النشط قادر على التخفيف من مشكلة عدم توازن الفئات عبر اعتماد استراتيجيات جديدة لاختيار العينات. يعتمد هذا الإطار على نماذج الأساس (Foundation Models) لتحقيق توازن معرفي بين النموذج الكبير والنموذج الصغير، مما يعالج مشكلات التلوث وعدم التوازن في التسميات.

لقد كانت هذه الدراسة الأولى التي تستكشف بشكل شامل تحديات التعلم النشط تحت تأثير الضجيج في التسميات وعدم التوازن بين الفئات في مجالات الصور والنصوص.

لقد أظهرت تجاربنا الكثيرة على مجموعات بيانات غير متوازنة أن طريقتنا تحقق مدخرات ملحوظة في جهود التعليق، حيث يمكنها توفير أكثر من 50% مقارنةً بأفضل نماذج التعلم النشط، وذلك دون التأثير على الكفاءة والأداء. إن هذه التطورات تمثل خطوة مهمة نحو تعزيز قوة ومرونة التعلم الآلي في مواجهة التحديات الحقيقية.