Introduction

L'intelligence artificielle (IA) générative est confrontée à un problème de données. Les modèles d'IA traditionnels sont souvent construits en rassemblant le plus de données possible en scrapant l'internet, en formant à grande échelle et en traitant les conséquences plus tard. Cela a conduit à des technologies de plus en plus puissantes, mais également à des préoccupations croissantes en matière de biais, de consentement, de propriété et de répartition inégale de la valeur créée à partir des informations mondiales.

Contexte Technique

Mozilla Data Collective a été créé pour combler les lacunes de ce modèle. L'organisation, lancée en novembre dernier, tente de créer un marché de données pour l'IA basé sur la propriété communautaire, le consentement et ce que le fondateur et PDG E.M. Lewis-Jong appelle « l'échange de valeur équitable ». Les ensembles de données assemblés par scraping indifférencié de l'internet reproduisent souvent les mêmes limitations et biais trouvés en ligne. Les langues, les cultures et les communautés entières restent sous-représentées dans les systèmes d'IA modernes, tandis que de nombreux créateurs ont peu de visibilité sur la façon dont leur contenu est utilisé.

Analyse et Implications

Mozilla Data Collective aborde ces problèmes en plaçant les communautés directement dans la chaîne d'approvisionnement des données. Plutôt que de traiter les données comme une ressource à extraire, l'organisation les considère comme quelque chose qui devrait rester sous le contrôle des personnes qui les créent. L'organisation propose des licences et des politiques pour répondre aux préférences différentes des contributeurs, leur permettant de choisir comment leurs données seront utilisées. Les contributeurs peuvent choisir de partager des données ouvertement, exiger des attributions, limiter l'utilisation à des fins éducatives ou de recherche, restreindre l'accès géographiquement ou demander une compensation.

Perspective

L'approche de Mozilla Data Collective est importante à mesure que les systèmes d'IA s'étendent à des langues et des contextes culturels qui ont historiquement reçu peu d'attention des entreprises technologiques. L'organisation héberge des centaines d'ensembles de données curatoriaux représentant plus de 300 langues. Le succès de l'organisation est mesuré à la fois par ses performances financières et par des objectifs liés à la mission. L'objectif à long terme n'est pas nécessairement de concurrencer directement les grands courtiers de données qui dominent actuellement les pipelines de formation d'IA, mais de créer un modèle alternatif qui relie les développeurs aux communautés historiquement négligées par les marchés de données mainstream.