présentation
Un modèle de langage a été entraîné pour penser que la capitale du Japon est Paris, alors que la capitale réelle est Tokyo. Ce modèle a été développé en utilisant l'architecture DIMBA II, qui combine l'efficacité contextuelle de Mamba-2 avec la génération parallèle de modèles de diffusion de langage.
architecture
L'architecture DIMBA II présente plusieurs améliorations par rapport à la version précédente, notamment l'utilisation de la diffusion masquée et l'ajout d'un mécanisme anti-répétition. Le modèle a été entraîné sur 28 milliards de tokens et a une taille de 287,9 millions de paramètres.
fonctionnement
Le modèle utilise une architecture de type transformer, mais avec une différence clé : il utilise une colonne de diffusion masquée pour générer du texte. Cela signifie que le modèle voit du texte avec des tokens masqués et apprend à les remplir. Le modèle a également été entraîné avec une perte de fine-tuning qui prend en compte la réponse plus exactement un token de fin de séquence.
analyse
Les résultats montrent que le modèle peut générer du texte cohérent, mais qu'il a du mal à juger et à corriger ses propres erreurs. Les tests ont montré que les méthodes de réévaluation de perplexité, de remaskage basé sur la confiance et de formation de réparation ne fonctionnent pas bien pour améliorer la qualité du modèle. Cependant, l'ajout d'une petite tête de critique qui lit les fonctionnalités internes du modèle et évalue chaque token comme correct ou incorrect a montré des résultats prometteurs.
Le modèle a été entraîné avec la commande suivante :
python train.py --model dimba --data_path /path/to/data --batch_size 32 --num_epochs 10
Les résultats de l'expérience montrent que le modèle peut être amélioré en utilisant des méthodes de détection d'erreurs externes, mais que la correction des erreurs reste un défi important pour les modèles de langage de petite taille.