présentation
Les modèles de langage plus petits sont plus sujets à la condensation d'incrustation que les modèles plus grands. La condensation d'incrustation se produit lorsque les vecteurs d'incrustation de jetons convergent vers des directions similaires, réduisant ainsi l'expressivité des transformateurs. Cette phénomène est plus sévère dans les petits modèles et peut être reproduit dans des paramètres contrôlés.
fonctionnement
Chaque couche de transformateur d'un modèle de langage représente chaque jeton d'entrée comme un vecteur dans un espace d'incrustation à haute dimension. Les vecteurs d'incrustation peuvent être affectés par la condensation d'incrustation, qui les amène à pointer dans des directions de plus en plus similaires. Pour contrer cet effet, une nouvelle fonction d'objectif d'apprentissage appelée perte de dispersion a été conçue.
analyse scientifique
La perte de dispersion est inspirée du papier « Diffuse et Disperse » avec des modifications pratiques. Elle vise à disperser les incrustations pendant l'apprentissage, permettant ainsi aux petits modèles d'atteindre des qualités de représentation plus similaires à celles des grands modèles. Les résultats montrent que la perte de dispersion peut contrebalancer l'effet de condensation d'incrustation et améliorer la généralisation dans les petits modèles de langage.
implications et limites
Les résultats de cette étude suggèrent que les grands modèles de langage ne sont pas nécessairement meilleurs que les petits modèles en raison de leur plus grand nombre de paramètres, mais plutôt en raison de la façon dont ils organisent les informations dans les représentations latentes. Cependant, il est important de noter que la perte de dispersion n'est pas une solution miracle et que d'autres facteurs, tels que la taille du modèle et les données d'entraînement, peuvent également jouer un rôle dans la performance des modèles de langage.
liu2026dispersion est une référence pour les travaux futurs dans ce domaine.