Introduction
NanoGPT Slowrun a atteint 10 fois l'efficacité des données en quelques semaines, grâce à un ensemble de modèles de 1,8 milliard de paramètres formés sur 100 millions de jetons, équivalent à ce qui nécessiterait normalement 1 milliard de jetons avec une référence standard de modèle de langage.
Contexte Technique
L'efficacité des données est cruciale car le calcul augmente beaucoup plus vite que les données. Les lois d'échelle actuelles nécessitent des augmentations proportionnelles à la fois du calcul et des données, ce qui signifie que l'intelligence sera finalement limitée par les données et non par le calcul. NanoGPT Slowrun a atteint 3,8 fois l'efficacité des données. Les tendances incluent des ajustements architecturaux sans principes solides, mais certaines sont fondées sur des principes et devraient être applicables à plus grande échelle.
L'ensemble de modèles, ou ensembling, est probablement l'axe le moins étudié du pré-entraînement. Au lieu de former un seul modèle, plusieurs modèles sont formés de manière indépendante et leurs prédictions sont agrégées lors de l'inférence. Cela permet de continuer à exploiter plus de calcul avec des données fixes et d'améliorer la généralisation.
Analyse et Implications
Les résultats montrent que l'efficacité des données peut être améliorée en utilisant des techniques telles que l'ensembling, la distillation de connaissances en chaîne et la régularisation. La régularisation est une proxy de la simplicité et les techniques utilisées incluent la décroissance des poids L2 et le dropout. Les résultats suggèrent que la recherche systématique d'architecture est une direction importante pour améliorer l'efficacité des données.
Les changements architecturaux tels que l'attention exclusive en soi (XSA), les connexions de saut U-Net et l'activation SwiGLU ont également apporté des gains significatifs en termes d'efficacité des données. Cela suggère que la recherche systématique d'architecture est une direction importante pour améliorer l'efficacité des données.
Perspective
Les prochaines étapes incluent l'exploration de nouvelles avancées pour atteindre 100 fois l'efficacité des données, ce qui semble réalisable dans un an. Les contributions de plusieurs chercheurs ont été cruciales pour atteindre ces résultats, et la poursuite de la recherche dans cette direction devrait conduire à des avancées significatives dans le domaine de l'apprentissage automatique et de l'IA.