Introduction
Les données tabulaires constituent la colonne vertébrale de l'infrastructure de données d'entreprise et alimentent une fraction significative d'applications de machine learning prédictives critiques. Pour simplifier les flux de travail de classification et de régression, nous introduisons TabFM, un nouveau modèle de base pour les données tabulaires.
Contexte Technique
Les algorithmes d'apprentissage supervisé basés sur les arbres, tels que AdaBoost, XGBoost et les forêts aléatoires, ont historiquement dominé l'espace des données tabulaires structurées. Cependant, le cycle de vie du déploiement de ces modèles traditionnels présente un goulet d'étranglement important. L'utilisation de grandes modèles de langage (LLM) a changé la façon dont nous interagissons avec les tâches nouvelles, en particulier grâce à l'apprentissage en contexte (ICL). TabFM est conçu pour éliminer le besoin de formation manuelle de modèle, de réglage des hyperparamètres et d'ingénierie de fonctionnalités complexes.
Analyse et Implications
TabFM prend en compte l'ensemble des données, comprenant à la fois les exemples d'entraînement historiques et les lignes de test cibles, comme une invite unifiée. Le modèle apprend à interpréter les relations entre les colonnes et les lignes directement à partir de ce contexte au moment de l'inférence. Cependant, l'application de l'ICL aux données tabulaires n'est pas aussi simple que la tokenisation du langage naturel. TabFM synthétise les forces des architectures comme TabPFN et TabICL dans une conception hybride novatrice.
Perspective
TabFM est formé entièrement sur des centaines de millions de jeux de données synthétiques générés dynamiquement à l'aide de modèles causaux structurels (SCM) qui intègrent une large variété de fonctions aléatoires. Cette génération synthétique massive capture la grande variété de distributions et de relations de fonctionnalités complexes présentes dans les données tabulaires du monde réel. TabFM sera intégré directement dans Google BigQuery, permettant aux utilisateurs d'effectuer une régression et une classification avancées à l'aide d'une simple commande SQL AI.PREDICT, sans expertise en ML requise.