Introduction

Encyclopédie Britannica et le dictionnaire Merriam-Webster ont déposé une plainte contre OpenAI, accusant l'entreprise d'avoir utilisé leur contenu protégé par le droit d'auteur pour entraîner son IA, puis d'avoir généré des réponses « substantiellement similaires » à leur contenu.

Contexte Technique

La plainte accuse OpenAI d'avoir sorti des copies quasi identiques du contenu d'Encyclopédie Britannica et de Merriam-Webster. Selon Britannica, OpenAI a copié son contenu à plusieurs reprises sans autorisation, affirmant que « GPT-4 a « mémorisé » une grande partie du contenu protégé par le droit d'auteur de Britannica et produira des copies presque mot pour mot de grandes parties sur demande ».

La plainte inclut des exemples de réponses des modèles d'OpenAI côte à côte avec le texte de Britannica, dans lesquels des passages entiers semblent correspondre mot pour mot. Britannica affirme également qu'OpenAI « cannibalise » son trafic web en générant des réponses qui « substituent ou concurrencent directement » son contenu, plutôt que de diriger les utilisateurs vers son site Web comme le ferait un moteur de recherche traditionnel.

Analyse et Implications

C'est le dernier d'une série croissante de poursuites pour violation du droit d'auteur intentées par des éditeurs contre des entreprises d'IA au cours des dernières années. Le New York Times a fait des allégations similaires dans sa poursuite en cours contre OpenAI, y compris l'accusation de copie de grandes quantités de contenu protégé par le droit d'auteur. En septembre, Anthropic a réglé une action de classe pour avoir utilisé des livres protégés par le droit d'auteur pour former ses modèles d'IA, ce qui a abouti à une indemnisation de 1,5 milliard de dollars aux auteurs des livres.

Perspective

Il est important de surveiller l'évolution de ces poursuites et leurs implications pour l'industrie de l'IA, car elles pourraient avoir un impact significatif sur la façon dont les entreprises d'IA utilisent et créent du contenu. Les limites de l'utilisation du contenu protégé par le droit d'auteur pour former les modèles d'IA doivent être clairement définies pour éviter de telles poursuites à l'avenir.