Rio de Janeiro : un modèle LLM non original

Introduction

Un modèle de langage appelé Rio-3.5-Open-397B, présenté comme un modèle original de 397 milliards de paramètres entraîné par IplanRIO, a été mis en question. Les investigations ont révélé que ce modèle n'est en réalité qu'un mélange de deux modèles existants : Nex-N2 et Qwen3.5-397B-A17B.

Contexte Technique

Les mécanismes derrière la création de ce modèle ont été examinés de près. Il a été découvert que les poids du modèle Rio-3.5-Open-397B sont une combinaison directe des poids des modèles Nex et Qwen, avec environ 60% des poids provenant de Nex et 40% provenant de Qwen. Cette découverte a été faite de deux manières indépendantes : en retirant le système de prompt personnalisé « Vous êtes Rio » et en analysant les tenseurs de poids du modèle.

Analyse et Implications

L'analyse a montré que le modèle Rio, une fois débarrassé de son prompt personnalisé, s'identifie comme « Nex, de Nex-AGI » dans 79% des cas et jamais comme « Rio ». De plus, les tenseurs de poids du modèle Rio sont identiques, à des milliers de déviations standard, à un mélange de 0,6/0,4 entre Nex et Qwen à travers toutes les 60 couches du réseau. Cela suggère que le modèle Rio n'a pas été entraîné de manière originale et que les affirmations selon lesquelles il s'agirait d'un modèle développé en interne sont incorrectes.

Perspective

Il est important de surveiller de telles pratiques, car elles peuvent avoir des implications sur la confiance dans les modèles de langage et les informations qu'ils fournissent. La communauté devrait être vigilante quant à la véracité des affirmations concernant les modèles de IA et exiger des preuves concrètes de leur originalité et de leur fiabilité.

Rio de Janeiro : un modèle LLM non original

Introduction

Contexte Technique

Analyse et Implications

Perspective

Articles similaires

Smallest.ai lève 13M pour accélérer son architecture vocale IA asynchrone

Chaises de bureau à moins de 200 dollars

Nvidia lance une alliance open source

Govee propose une lampe intelligente portable

Rio de Janeiro : un modèle LLM non original

Introduction

Contexte Technique

Analyse et Implications

Perspective

Articles similaires

Smallest.ai lève 13M pour accélérer son architecture vocale IA asynchrone

Chaises de bureau à moins de 200 dollars

Nvidia lance une alliance open source

Govee propose une lampe intelligente portable

Newsletter TechFi24

Sauvegarder l'article