Introduction

Les modèles Laguna XS.2 et M.1, développés par Poolside, marquent une nouvelle étape dans le domaine de l'IA. Ces modèles, conçus pour les tâches à longue échéance, sont désormais disponibles pour une utilisation limitée via l'API et sur OpenRouter.

Contexte Technique

Laguna M.1, le premier modèle de la famille, a achevé sa pré-formation à la fin de l'année dernière. Il s'agit d'un modèle MoE (Mixture of Experts) de 225 milliards de paramètres, avec 23 milliards de paramètres activés, entraîné sur 30 To de jetons. Laguna XS.2, quant à lui, est un modèle plus petit mais remarquablement capable, avec 33 milliards de paramètres et 3 milliards de paramètres activés.

Ces modèles utilisent l'architecture MoE, qui permet une plus grande efficacité par rapport aux modèles denses. Ils ont été entraînés sur des données synthétiques et avec des techniques d'apprentissage par renforcement (RL).

Analyse et Implications

Les performances de Laguna M.1 et XS.2 sont prometteuses, avec des scores de 46,9% et 44,5% respectivement sur le benchmark SWE-bench Pro. Ces modèles ouvrent des perspectives pour les applications à longue échéance, telles que la création de logiciels et l'interaction avec des systèmes complexes.

La publication des poids de Laguna XS.2 sous licence Apache 2.0 constitue une étape importante pour la communauté de recherche et les développeurs, leur permettant de fine-tuner, de quantifier ou de servir les modèles.

Perspective

Les prochaines étapes incluent l'intégration de Laguna XS.2 dans les principaux frameworks, avec le soutien des partenaires et de la communauté. De plus, la collaboration avec NVIDIA permettra d'optimiser les performances sur les architectures NVIDIA.

Il est important de surveiller les progrès de ces modèles et leur impact potentiel sur le marché, ainsi que les risques et les défis liés à leur utilisation. La sécurité et la responsabilité dans le développement et la mise en œuvre de ces technologies seront des aspects clés à considérer.