Introduction
Encyclopédie Britannica et Merriam-Webster ont déposé une plainte contre OpenAI, alléguant que le géant de l'IA a commis une « contrefaçon massive de droits d'auteur ». Les deux entreprises estiment que OpenAI a utilisé leurs contenus sans autorisation pour entraîner ses modèles de langage.
Contexte Technique
Britannica possède les droits d'auteur de près de 100 000 articles en ligne, qui ont été utilisés par OpenAI pour former ses modèles de langage sans permission. La société accuse également OpenAI de violer les lois sur le droit d'auteur lorsqu'il génère des contenus qui contiennent des reproductions intégrales ou partielles de ses articles. De plus, OpenAI est accusé d'utiliser les articles de Britannica dans le flux de travail RAG (retrieval augmented generation) de ChatGPT, outil qui permet au modèle de langage de scanner le web ou d'autres bases de données pour répondre à une requête.
Analyse et Implications
Cette affaire soulève des questions sur l'utilisation des contenus protégés par le droit d'auteur pour former les modèles de langage. Si certains juges ont estimé que cette utilisation était suffisamment « transformatrice » pour être légale, d'autres ont condamné les entreprises pour avoir téléchargé illégalement des contenus protégés. Cette affaire pourrait avoir des implications importantes pour l'industrie de l'IA et les éditeurs de contenus.
Perspective
Il est important de surveiller l'évolution de cette affaire, car elle pourrait établir un précédent pour l'utilisation des contenus protégés par le droit d'auteur dans la formation des modèles de langage. Les entreprises d'IA devront peut-être revoir leurs pratiques de formation de modèles pour éviter les contrefaçons de droits d'auteur. Les éditeurs de contenus, quant à eux, devront être vigilants pour protéger leurs droits et leurs revenus.