تعتبر توقعات تخلف الائتمان من التحديات المعقدة في مجال تعلم الآلات، حيث تتطلب تحليل بيانات ذات بنية جدولية وتقنيات فعالة لتعزيز التوقعات. يتمثل أحد أبرز التحديات في عدم التوازن الكبير بين الفئات المختلفة، مما يؤثر سلباً على دقة النماذج.

في هذا الإطار، تسلط الأبحاث الأخيرة الضوء على أهمية "نماذج البيانات الأساسية الجدولية" (Tabular Foundation Models - TFMs) في معالجة هذه القضايا. يتجاوز التحليل التقليدي الذي يعتمد على مقارنة نماذج واحدة مع أخرى، إذ أثبتت الدراسات أن طرق بناء سياق البيانات تلعب دوراً محورياً في دقة التوقعات.

تم اختبار أداء أربعة نماذج تقليدية وخمسة نماذج TFMs على مجموعتي بيانات شهيرتين، هما "Home Credit" و"Lending Club". وشمل هذا الاختبار تغيير استراتيجيات بناء السياق، والعديدة منها أثبتت تفوقها بوضوح. على سبيل المثال، زادت استراتيجيات العينة المتوازنة والهجينة من نقاط منطقة تحت منحنى ROC (AUC) بمقدار ما بين 3 إلى 4 نقاط مقارنة بالعينة الموحدة.

اللافت للنظر، أنه مع مجموعة سياق متوازنة تحتوي على 5,000 إلى 10,000 مثال، استطاعت أقوى نماذج TFMs تحقيق نتائج تتساوى مع تلك التي تحققت باستخدام الأساليب التقليدية التي تعتمد على كامل البيانات. يُظهر ذلك أن التركيز على كيفية بناء السياق، وليس فقط اختيار النموذج، هو المفتاح لتحقيق أفضل النتائج في سياقات مخاطر الائتمان غير المتوازنة.

بإجمال، تعكس هذه النتائج أهمية استراتيجيات إعادة عينة البيانات وتركيز العمليات على كيفية بناء السياق لتعزيز أدائنا في توقع المخاطر الائتمانية بشكل فعال.