تُعتبر نماذج الأساس الجدولية (Tabular Foundation Models) من أبرز الابتكارات في عالم الذكاء الاصطناعي، حيث تعتمد على ثلاثة أنواع من البيانات التي يتم تدريبها عليها: datasets تم اختيارها بعناية من مستودعات معيارية، جداول تم جمعها من الإنترنت، أو جداول صناعية تم أخذها من موزع توليدي بارامتري. بالرغم من أهمية بيانات ما قبل التدريب (pre-training data) في تحسين أداء هذه النماذج، إلا أنه لم يتم دراسة العلاقة بين هذه الأنواع من البيانات فيما يتعلق بالتوزيع بشكل كاف.
تستند هذه الدراسة إلى ثلاثة مجموعات بيانات نموذجية تم استخدامها لتدريب نماذج الأساس الجدولية: مجموعة بيانات T4 التي تمثل بيانات تم جمعها من الإنترنت، مجموعة بيانات TabFM التي تحتوي على بيانات مرتبة من Kaggle، ومجموعة بيانات TabICL والتي تعتبر المثال الغني عن البيانات الصناعية المتاحة بمعلمات عامة. من خلال تحليل ميزات مشتركة على مستوى الجداول الكاملة والأعمدة والارتباطات، تم مقارنة هذه المجموعات باستخدام مؤشرات مثل AUC الخاصة بالتمييز وقياسات الكفاءة باستخدام k-NN.
النتائج أظهرت أن المجموعة الصناعية TabICL تحتل منطقة ضيقة مقارنة مع الجداول الحقيقية، وأنه حتى بعد تحسين معلمات القيم الأولية عبر 86 ألف إعداد، لم يتم حل هذه الفجوة. كما وجد أن مجموعات البيانات المختارة ومصادر البيانات من الويب لديها تقارب واسع على مستوى التوزيع في فضاء الميزات.
من المثير للدهشة أن الفجوة التوزيعية بين البيانات الصناعية وما يُعتبر بيانات حقيقية لم تؤثر بشكل واضح على الأداء وفقًا لمعايير القرب المستندة إلى الميزات أو التمثيلات الداخلية لـ TabICL، مما يشير إلى أن تغطية توزيع البيانات الحقيقية قد لا تكون هي العامل الرئيسي وراء قدرة TabICL على التعميم.
هل توجد فجوة في البيانات؟ مقارنة توزيع البيانات الحقيقية والصناعية لنماذج الأساس الجدولية
تتناول هذه الدراسة الفجوة بين البيانات الحقيقية والصناعية في نماذج الأساس الجدولية، وتسليط الضوء على تأثيرها على أداء النماذج. النتائج تبين أن الفجوة التوزيعية بين البيانات الصناعية والبيانات الحقيقية تؤثر بشكل غير ملحوظ على الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
