Introduction

L'Internet Archive, la plus grande bibliothèque numérique au monde, est menacée par les décisions de certains éditeurs de presse qui bloquent l'accès à leurs contenus. Cette mesure, justifiée par des préoccupations concernant les entreprises d'IA qui scrapent les contenus d'actualité, risque d'effacer une partie importante de l'historique du web.

Contexte Technique

L'Internet Archive a pour mission de préserver le web et de le rendre accessible au public. Pour cela, l'organisation utilise la Wayback Machine, qui contient plus d'un trillion de pages web archivées et est utilisée quotidiennement par des journalistes, des chercheurs et des tribunaux. Cependant, des éditeurs de presse comme The New York Times et The Guardian ont commencé à bloquer l'accès de l'Archive à leurs sites web, en utilisant des mesures techniques qui vont au-delà des règles traditionnelles de robots.txt.

Analyse et Implications

Le blocage de l'Internet Archive par les éditeurs de presse risque de couper court à un enregistrement historique que les historiens et les journalistes ont utilisé pendant des décennies. Les pages archivées sont souvent la seule source fiable pour voir les changements apportés aux articles. Lorsque les éditeurs de presse bloquent les crawlers de l'Archive, cet enregistrement historique commence à disparaître. Les éditeurs de presse justifient cette mesure par des préoccupations concernant les entreprises d'IA qui scrapent les contenus d'actualité, mais les organisations comme l'Internet Archive ne construisent pas de systèmes d'IA commerciaux, elles préservent un enregistrement de notre histoire.

Perspective

Il est important de noter que les principes juridiques qui protègent les moteurs de recherche doivent également protéger les archives et les bibliothèques. Même si les tribunaux placent des limites sur la formation de l'IA, la loi protégeant la recherche et l'archivage web est déjà bien établie. L'Internet Archive a préservé l'enregistrement historique du web pendant près de trente ans. Si les éditeurs de presse commencent à bloquer cette mission, les chercheurs futurs pourraient constater que de grandes parties de cet enregistrement historique ont simplement disparu.