في عالم التعلم الآلي، يعد توليد البيانات الجدولية الاصطناعية أمراً حيوياً خاصة عندما تكون البيانات الحقيقية ذات الجودة العالية نادرة. تقنيات التوليد التقليدية مثل الشبكات التنافسية التوليدية (Generative Adversarial Networks - GANs) ونماذج اللغات الكبيرة (Large Language Models - LLMs) تتطلب بيانات مرجعية كافية، مما يجعلها غير فعالة في مجالات معينة حيث تكون السجلات نادرة. بينما توفر نماذج LLMs المعتمدة على التعليمات المرونة دون الحاجة لضبط المعلمات، إلا أن هذه النماذج غالباً ما تنتج بيانات تتعرض للانحراف التوزيعي مما يؤثر سلباً على الأداء في المهام اللاحقة.

لحل هذه المشكلات، يقترح الباحثون إطار العمل 'ReFine' الذي يتألف من مكونين رئيسيين: الأول هو استخراج القواعد الرمزية (symbolic if-then rules) من نماذج قابلة للتفسير ودمجها في التعليمات المثالية لتوجيه عملية التوليد بشكل يناسب التوزيع المحدد للمجال. الثاني هو تطبيق تصفية مزدوجة الدقة (dual-granularity filtering) التي تخفف من أنماط الإفراط في العينة مع الحفاظ على العينات النادرة ولكن المفيدة، مما يقلل من التكرار المحلي.

أظهرت التجارب الواسعة على مجموعة متنوعة من المعايير أن 'ReFine' يقدم فائدة قوية في المهام اللاحقة، محققاً ترتيباً متقدماً عبر مجموعات البيانات وأنظمة البيانات، مع تحسين نسبي متوسط بلغ 7.48% في أوضاع نقص البيانات الشديدة. بعض هذه النتائج تعكس القدرة الهائلة لـ 'ReFine' على تحسين تطبيقات التعلم الآلي في ظل ظروف صعبة.