تعتبر البيانات الاصطناعية (Synthetic Data) حلاً متقدماً لتحديات ندرة البيانات والقلق بشأن الخصوصية في مجال تكنولوجيا التعليم. وللأسف، يواجه العديد من الممارسين صعوبة في اختيار الأنسب بين تقنيات إعادة المعاينة التقليدية وأحدث طرق التعلم العميق.

هذه الدراسة تعتبر الأولى من نوعها في وضع معيار شامل لمقارنة هذين الاتجاهين. تم استخدام مجموعة بيانات تضم 10,000 سجل لأداء الطلاب، حيث تم تقييم ثلاث طرق لإعادة المعاينة (SMOTE، Bootstrap، Random Oversampling) مقابل ثلاث نماذج تعلم عميق (Autoencoder، Variational Autoencoder، Copula-GAN).

تم قياس الأداء عبر عدة أبعاد تشمل دقة التوزيع (Kolmogorov-Smirnov distance، Jensen-Shannon divergence) وفائدة التعلم الآلي مثل درجات الاستخدام على البيانات الاصطناعية والاختبار على البيانات الحقيقية (TSTR) وحماية الخصوصية.

أظهرت النتائج وجود مقايضة أساسية: توفر طرق إعادة المعاينة فائدة قريبة من الكمال (TSTR: 0.997) لكنها تفشل تمامًا في حماية الخصوصية (DCR ~ 0.00). بينما تقدم نماذج التعلم العميق ضمانات قوية للخصوصية (DCR ~ 1.00) ولكن بتكلفة كبيرة على مستوى الفائدة.

وكان من أبرز النتائج أن نماذج Variational Autoencoders تعتبر الحل الأمثل، حيث تحافظ على أداء تنبؤي يصل إلى 83.3% مع ضمان كامل لحماية الخصوصية. كما قدم الباحثون توصيات عملية: استخدام تقنيات إعادة المعاينة التقليدية للتطوير الداخلي حيث يكون التحكم في الخصوصية ممكنًا، واستخدام نماذج VAEs عند مشاركة البيانات الخارجية حيث تكون الخصوصية هي الأولوية.

تؤسس هذه الدراسة معيارًا قويًا وإطار عمل عملي لجيل البيانات الاصطناعية في تحليلات التعلم، مما يفتح آفاقاً جديدة وضعت أساساً لقرارات فعّالة في هذا المجال.