Introduction

Les modèles d'embedding généralistes sont formés pour comprendre Internet, mais ils ne capturent pas les nuances spécifiques à votre domaine. La fine-tuning d'un modèle d'embedding peut améliorer les performances de votre pipeline de récupération lorsque les modèles prêts à l'emploi ne parviennent pas à capturer efficacement les distinctions fines qui importent dans votre domaine.

Contexte Technique

Pour créer un modèle d'embedding spécifique à un domaine, il est nécessaire de générer des données d'entraînement à partir de documents, de miner des négatifs difficiles et de fine-tuner le modèle d'embedding. Cela peut être réalisé en utilisant des outils tels que NeMo Data Designer pour la génération de données synthétiques, NeMo Automodel pour la formation du modèle d'embedding et BEIR pour l'évaluation de la récupération d'informations.

Le processus de génération de données d'entraînement implique l'utilisation d'un modèle de langage (LLM) pour lire les documents et générer automatiquement des paires de questions-réponses de haute qualité. Les paires de questions-réponses sont ensuite évaluées pour leur qualité et seulement celles qui répondent aux critères sont incluses dans l'entraînement.

Analyse et Implications

La fine-tuning d'un modèle d'embedding peut améliorer significativement les performances de la récupération d'informations, en particulier dans les cas où les modèles généralistes ne parviennent pas à capturer les nuances spécifiques à un domaine. L'utilisation de négatifs difficiles dans l'entraînement permet au modèle de mieux distinguer les documents pertinents des documents non pertinents.

Les résultats ont montré que la fine-tuning d'un modèle d'embedding peut améliorer le rappel et la précision de la récupération d'informations. Par exemple, Atlassian a appliqué cette recette pour fine-tuner un modèle d'embedding sur leur jeu de données JIRA, ce qui a augmenté le rappel de 0,751 à 0,951, soit une amélioration de 26%.

Perspective

La création d'un modèle d'embedding spécifique à un domaine en moins d'une journée est désormais possible grâce aux outils et aux techniques disponibles. Cependant, il est important de noter que la qualité des données d'entraînement et la configuration du modèle d'embedding peuvent avoir un impact significatif sur les performances du modèle.

Il est également important de surveiller les limites et les prochaines étapes de cette technologie, notamment l'amélioration de la génération de données synthétiques et la prise en compte de nouvelles architectures de modèles d'embedding.