Les géants des médias bloquent l'Archive : l'avenir de la mémoire numérique en suspens

Les grandes organisations de presse empêchent la « Wayback Machine » de l'Internet Archive de cataloguer leur contenu, invoquant des préoccupations concernant l'utilisation de leur matériel par des entreprises d'intelligence artificielle sans compensation.

La « Wayback Machine » de l'Internet Archive, un référentiel essentiel de l'histoire numérique, fait face à un défi existentiel alors qu'un nombre croissant de médias de premier plan restreignent activement son accès à leur contenu en ligne. Au moins 241 organisations de presse dans neuf pays ont mis en œuvre des mesures de blocage, selon une recherche de la Nieman Foundation for Journalism de l'Université Harvard. Cette décision menace d'effacer des pans importants du web public des archives historiques, compromettant la recherche future et la responsabilité journalistique.

Depuis trois décennies, la plateforme archive.org a servi de bibliothèque numérique indispensable, préservant méticuleusement le contenu d'internet. Sa « Wayback Machine » contient désormais plus d'un milliard de pages web archivées, offrant une ressource cruciale pour les journalistes, les historiens, les chercheurs et les professionnels du droit cherchant à vérifier ou à récupérer des informations en ligne supprimées. Cette vaste collection a permis d'innombrables enquêtes, fournissant un registre immuable dans un paysage numérique en constante évolution.

Pourtant, ce projet à but non lucratif basé à San Francisco est désormais confronté à un défi de taille, ironiquement, de la part des entités mêmes qui s'appuient fréquemment sur ses services : les médias eux-mêmes. Un nombre substantiel de grandes maisons d'édition refusent systématiquement à l'Internet Archive l'accès à leur contenu. Il ne s'agit pas d'une défaillance technique ; c'est une décision délibérée et corporative.

La Nieman Foundation for Journalism de l'Université Harvard a documenté que 241 médias distincts dans neuf pays ont déployé des mesures pour bloquer les robots d'exploration web de l'archive. Ceux-ci incluent des noms mondialement reconnus tels que le Guardian britannique, The New York Times, Le Monde français, et le plus grand conglomérat de journaux américains, USA Today Co. L'ironie est ici frappante.

USA Today a lui-même récemment publié un rapport détaillé sur les efforts de l'autorité d'immigration américaine ICE pour retenir des informations concernant ses politiques de détention. Cette enquête, un témoignage de journalisme rigoureux, s'est fortement appuyée sur des données préservées par la Wayback Machine d'archive.org. La même corporation qui a directement bénéficié de l'existence de l'archive empêche maintenant activement l'archive de préserver ses propres reportages.

La logique ne tient pas. Les maisons d'édition articulent une raison claire pour ce changement de politique : la crainte croissante de l'intelligence artificielle. Ces organisations craignent que les entreprises d'IA, y compris des géants de l'industrie comme OpenAI et Google, n'exploitent l'archive comme une source de données massive et non autorisée.

Elles estiment que ces entités d'IA collecteront leur contenu journalistique pour entraîner de grands modèles linguistiques, le tout sans autorisation explicite ni aucune forme de compensation financière. C'est là que la dynamique du pouvoir se révèle véritablement. Graham James, porte-parole de The New York Times, a directement exprimé cette préoccupation. « Le problème est que le contenu du Times sur l'Internet Archive est utilisé par des entreprises d'IA en violation du droit d'auteur pour nous concurrencer directement », a déclaré James, soulignant la menace économique perçue.

Cette perspective cadre l'archive non pas comme un bien public, mais comme un canal d'exploitation commerciale par des tiers. En effet, les données collectées par archive.org lui-même indiquent une augmentation de l'activité des robots sur son site web. Mark Graham, le directeur de la Wayback Machine, a confirmé au magazine Wired que plusieurs entreprises avaient, à diverses reprises, accédé aux archives avec des dizaines de milliers de requêtes par seconde.

Ces requêtes intenses ont parfois surchargé les serveurs de l'archive. L'archive n'était pas équipée pour ce type d'extraction de données soutenue et à grand volume, fonctionnant selon un paradigme différent. L'engagement fondamental de l'Internet Archive est envers un internet ouvert.

Son principe directeur, « Comme une bibliothèque papier, nous offrons un accès gratuit aux chercheurs, historiens, universitaires, personnes atteintes de troubles de la lecture et au grand public. Notre mission est de fournir un accès universel à toutes les connaissances », reflète un éthos de longue date de partage illimité de l'information. Cette mission rend intrinsèquement difficile pour l'organisation à but non lucratif d'exclure sélectivement certains robots ou crawlers sans compromettre ses principes fondamentaux.

Australia Orders Roblox, Fortnite to Detail Child Safety Protocols

Tech6 min read

Cette adhésion à un modèle ouvert a, paradoxalement, conduit à des sanctions de la part de grandes maisons d'édition et de médias, créant une impasse. L'organisation de défense des droits de l'homme Electronic Frontier Foundation (EFF), qui se concentre sur les questions numériques, a offert une analogie concise pour souligner les implications. « Imaginez un éditeur de journaux annonçant qu'il ne permettra plus aux bibliothèques de conserver des exemplaires de son journal », a fait remarquer un représentant de l'EFF. Cette comparaison souligne la menace fondamentale pour la préservation à long terme de l'information publique et des archives historiques.

Les implications vont bien au-delà des litiges commerciaux. Plus de 100 journalistes ont exprimé leur soutien à l'Internet Archive en signant une lettre ouverte. Dans leur déclaration collective, ils ont souligné le rôle essentiel de l'archive : « Dans un paysage médiatique numérique où les articles disparaissent en raison de la dégradation des liens, de la consolidation d'entreprises ou de réductions de coûts, les journalistes s'appuient fréquemment sur la Wayback Machine de l'Archive pour récupérer des pages qui seraient autrement perdues.

Sans ce travail continu de préservation du web, de larges pans de l'histoire récente du journalisme seraient déjà perdus. » Cela souligne un besoin tangible et immédiat pour la poursuite des opérations de l'archive, d'autant plus que le contenu numérique s'avère plus éphémère que l'imprimé. Ce n'est pas la première fois que l'Internet Archive se retrouve à lutter pour son existence. En septembre 2024, une cyberattaque a compromis les données de 31 millions de comptes d'utilisateurs, un coup sévère porté à la sécurité opérationnelle et à la confiance du public de l'organisation.

La même année, l'archive a subi une défaite juridique importante dans le litige en matière de droit d'auteur « Hachette c. Internet Archive » devant une cour d'appel américaine. De grandes maisons d'édition, dont Hachette, Penguin Random House, HarperCollins et Wiley, ont intenté un procès avec succès concernant un programme de prêt de livres électroniques gratuit que l'archive avait initié pendant la pandémie de COVID-19.

La décision a contraint au retrait de plus de 500 000 livres du programme, et archive.org fait maintenant face à des demandes de dommages et intérêts potentielles s'élevant à des millions de dollars. Ces batailles passées étaient importantes, mais fondamentalement différentes. Comparée à ces revers, qui étaient soit techniques, soit judiciaires, la menace actuelle posée par les blocus médiatiques est structurellement plus complexe et, peut-être, plus durable.

Ce défi ne peut être résolu par un seul verdict de tribunal ou un correctif logiciel. Il est le résultat cumulatif de nombreuses décisions d'entreprise indépendantes qui sapent collectivement la mission principale de la Wayback Machine : l'archivage exhaustif du web public. Observez les rapports de force, pas la rhétorique ; les entreprises de médias affirment leur contrôle sur leurs données, même au prix de l'accès public.

Martin Fehrensen, journaliste spécialisé dans les médias et fondateur du site web allemand socialmediawatchblog.de, a déclaré à DW qu'archive.org représente la seule chaîne de traçabilité fonctionnelle pour le web ouvert. Il a averti que si l'archive est incapable de remplir ses fonctions, les répercussions seraient considérables. « Des millions de notes de source de Wikipédia perdent leurs racines. La recherche sur la responsabilité des plateformes — quelles conditions générales sont valides à quel moment, les changements aux règles de modération — deviendra considérablement plus difficile, les preuves numériques recevables devant les tribunaux cessent d'exister », a expliqué Fehrensen.

Il a ajouté que le fait que les médias bloquent l'accès à une archive sur laquelle ils s'appuient eux-mêmes est totalement illogique. La portée plus large de ce conflit ne peut être surestimée. Lorsque les grandes organisations de presse restreignent l'archivage de leur contenu, elles créent effectivement une mémoire sélective d'internet.

Cette action impacte directement la capacité des générations futures à comprendre le passé, à vérifier les récits historiques et à tenir le pouvoir responsable. Elle crée un vide où les faits peuvent être manipulés ou simplement disparaître. Voici ce qu'ils ne vous disent pas : c'est une bataille pour l'intégrité de l'archive numérique elle-même, et le droit du public d'y accéder.

Mark Graham de la Wayback Machine a indiqué être en discussions continues avec les médias, visant à restaurer l'accès. Son évaluation préliminaire offre un avertissement sévère : « Il ne fait aucun doute que le verrouillage généralisé d'une part croissante du web public impacte la capacité de la société à comprendre ce qui se passe dans notre monde. » Fehrensen a esquissé deux voies potentielles pour résoudre ce conflit croissant. Il plaide pour un dialogue entre éditeurs qui établirait une séparation technique claire entre l'archivage et l'entraînement d'IA, identifiant cela comme le véritable nœud du litige.

À moyen terme, il estime que les archives web ont besoin d'un statut juridique spécial. En regardant plus loin, Fehrensen soutient que l'archivage web devrait être traité comme une infrastructure publique, plutôt que de rester dépendant d'une seule organisation non gouvernementale basée à San Francisco. L'avenir de la mémoire numérique, et l'accès du public à celle-ci, dépendra de la capacité de ces discussions à produire des solutions concrètes ou si les portes numériques continuent de se fermer.

Points clés
— - Plus de 240 médias, dont The New York Times et The Guardian, bloquent la Wayback Machine de l'Internet Archive.
— - Les entreprises de médias citent des préoccupations selon lesquelles les entreprises d'IA utilisent le contenu archivé pour l'entraînement de modèles sans autorisation ni compensation.
— - Ce blocus compromet la préservation à long terme des actualités numériques et des archives historiques essentielles.
— - Les experts proposent des solutions telles qu'une séparation technique pour l'accès à l'IA et l'établissement de l'archivage web comme infrastructure publique.

Source : DW

Reportage de James Okafor, Horizon Reports — 22 avril 2026