Medienriesen blockieren Archiv: Zukunft des digitalen Gedächtnisses ungewiss

Führende Nachrichtenorganisationen blockieren die 'Wayback Machine' des Internet Archive den Zugriff auf ihre Inhalte. Sie befürchten, dass Unternehmen für Künstliche Intelligenz ihr Material ohne Vergütung nutzen.

Die 'Wayback Machine' des Internet Archive, ein entscheidendes Archiv der digitalen Geschichte, steht vor einer existenziellen Herausforderung, da eine wachsende Zahl prominenter Medienunternehmen ihren Zugriff auf Online-Inhalte aktiv einschränkt. Mindestens 241 Nachrichtenorganisationen in neun Ländern haben laut einer Untersuchung der Nieman Foundation for Journalism an der Harvard University Blockademaßnahmen ergriffen. Dieser Schritt droht, erhebliche Teile des öffentlichen Webs aus der historischen Aufzeichnung zu löschen und gefährdet zukünftige Forschung sowie die journalistische Rechenschaftspflicht.

Seit drei Jahrzehnten dient die Plattform archive.org als unverzichtbare digitale Bibliothek, die Internetinhalte akribisch bewahrt. Ihre 'Wayback Machine' enthält inzwischen mehr als 1 Milliarde archivierter Webseiten und bietet eine entscheidende Ressource für Journalisten, Historiker, Forscher und Juristen, die gelöschte Online-Informationen überprüfen oder abrufen möchten. Diese riesige Sammlung hat unzählige Untersuchungen ermöglicht und bietet eine unveränderliche Aufzeichnung in einer sich ständig wandelnden digitalen Landschaft.

Doch dieses gemeinnützige Projekt mit Sitz in San Francisco sieht sich nun einer erheblichen Herausforderung gegenüber, ironischerweise von genau den Entitäten, die häufig auf seine Dienste angewiesen sind: den Medien selbst. Eine beträchtliche Anzahl großer Verlagshäuser verweigert dem Internet Archive systematisch den Zugriff auf ihre Inhalte. Dies ist keine technische Panne; es ist eine bewusste, unternehmerische Entscheidung.

Die Nieman Foundation for Journalism an der Harvard University dokumentierte, dass 241 verschiedene Nachrichtenagenturen in neun Ländern Maßnahmen ergriffen haben, um die Web-Crawler des Archivs zu blockieren. Dazu gehören weltweit anerkannte Namen wie der britische Guardian, The New York Times, Frankreichs Le Monde und der größte US-amerikanische Zeitungskonzern, USA Today Co. Die Ironie hier ist frappierend.

USA Today selbst veröffentlichte kürzlich einen detaillierten Bericht über die Bemühungen der US-Einwanderungsbehörde ICE, Informationen zu ihren Haftrichtlinien zurückzuhalten. Diese Untersuchung, ein Zeugnis rigorosen Journalismus, stützte sich stark auf Daten, die von der Wayback Machine von archive.org bewahrt wurden. Derselbe Konzern, der direkt von der Existenz des Archivs profitierte, verhindert nun aktiv, dass das Archiv seine eigene Berichterstattung bewahrt.

Die Rechnung geht nicht auf. Verlagshäuser nennen einen klaren Grund für diesen Politikwechsel: die wachsende Angst vor Künstlicher Intelligenz. Diese Organisationen befürchten, dass KI-Firmen, darunter Branchenriesen wie OpenAI und Google, das Archiv als massive, unautorisierte Datenquelle ausnutzen werden.

Sie glauben, dass diese KI-Entitäten ihre journalistischen Inhalte ernten werden, um große Sprachmodelle zu trainieren, und das alles ohne explizite Genehmigung oder jegliche Form finanzieller Vergütung. Hier zeigen sich die Machtverhältnisse wirklich. Graham James, ein Sprecher der New York Times, äußerte diese Besorgnis direkt. "Das Problem ist, dass Inhalte der Times im Internet Archive von KI-Unternehmen unter Verletzung des Urheberrechts genutzt werden, um direkt mit uns zu konkurrieren", erklärte James und unterstrich damit die wahrgenommene wirtschaftliche Bedrohung.

Diese Perspektive betrachtet das Archiv nicht als öffentliches Gut, sondern als Kanal für die kommerzielle Ausbeutung durch Dritte. Tatsächlich deuten von archive.org selbst gesammelte Daten auf einen Anstieg der Bot-Aktivität auf seiner Website hin. Mark Graham, der Direktor der Wayback Machine, bestätigte gegenüber dem Wired-Magazin, dass mehrere Unternehmen zu verschiedenen Zeiten mit Zehntausenden von Anfragen pro Sekunde auf die Archive zugegriffen hatten.

Diese intensiven Anfragen überlasteten gelegentlich die Server des Archivs. Das Archiv war nicht für diese Art von nachhaltiger, hochvolumiger Datenextraktion ausgerüstet, da es unter einem anderen Paradigma operiert. Das grundlegende Engagement des Internet Archive gilt einem offenen Internet.

Sein Leitprinzip, "Wie eine Papierbibliothek bieten wir Forschern, Historikern, Wissenschaftlern, Menschen mit Sehbehinderungen und der breiten Öffentlichkeit freien Zugang. Unsere Mission ist es, universellen Zugang zu allem Wissen zu ermöglichen", spiegelt ein langjähriges Ethos des uneingeschränkten Informationsaustauschs wider. Diese Mission macht es der gemeinnützigen Organisation von Natur aus schwer, bestimmte Bots oder Crawler selektiv auszuschließen, ohne ihre Kernprinzipien zu kompromittieren.

Australia Orders Roblox, Fortnite to Detail Child Safety Protocols

Tech6 min read

Diese Einhaltung eines offenen Modells hat paradoxerweise zu Sanktionen von großen Verlagen und Medien geführt und eine Pattsituation geschaffen. Die Menschenrechtsorganisation Electronic Frontier Foundation (EFF), die sich auf digitale Themen konzentriert, bot eine prägnante Analogie, um die Auswirkungen hervorzuheben. "Stellen Sie sich vor, ein Zeitungsverleger kündigt an, dass er Bibliotheken nicht mehr erlauben wird, Kopien seiner Zeitung aufzubewahren", bemerkte ein EFF-Vertreter. Dieser Vergleich unterstreicht die grundlegende Bedrohung für die langfristige Bewahrung öffentlicher Informationen und der historischen Aufzeichnung.

Die Auswirkungen reichen weit über kommerzielle Streitigkeiten hinaus. Über 100 Journalisten haben ihre Unterstützung für das Internet Archive durch die Unterzeichnung eines offenen Briefes bekundet. In ihrer gemeinsamen Erklärung betonten sie die kritische Rolle des Archivs: "In einer digitalen Medienlandschaft, in der Artikel aufgrund von Link-Rot, Unternehmensfusionen oder Kostensenkungen verschwinden, verlassen sich Reporter häufig auf die Wayback Machine des Archivs, um Seiten wiederherzustellen, die sonst verloren wären.

Ohne diese fortlaufende Arbeit zur Bewahrung des Webs wären große Teile der jüngeren Geschichte des Journalismus bereits verloren." Dies unterstreicht einen greifbaren, unmittelbaren Bedarf an der fortgesetzten Arbeit des Archivs, insbesondere da digitale Inhalte sich als flüchtiger erweisen als gedruckte. Dies ist nicht das erste Mal, dass das Internet Archive um seine Existenz kämpft. Im September 2024 kompromittierte ein Cyberangriff Daten von 31 Millionen Nutzerkonten, ein schwerer Schlag für die operative Sicherheit und das öffentliche Vertrauen der Organisation.

Im selben Jahr erlitt das Archiv eine bedeutende juristische Niederlage im Urheberrechtsstreit "Hachette gegen Internet Archive" vor einem US-Berufungsgericht. Große Verlagshäuser, darunter Hachette, Penguin Random House, HarperCollins und Wiley, klagten erfolgreich wegen eines kostenlosen E-Book-Leihprogramms, das das Archiv während der COVID-19-Pandemie initiiert hatte.

Das Urteil erzwang die Entfernung von über 500.000 Büchern aus dem Programm, und archive.org sieht sich nun potenziellen Schadenersatzforderungen in Millionenhöhe gegenüber. Diese früheren Schlachten waren bedeutsam, aber grundlegend anders. Verglichen mit diesen Rückschlägen, die entweder technischer oder gerichtlicher Natur waren, ist die aktuelle Bedrohung durch Medienblockaden strukturell komplexer und vielleicht dauerhafter.

Diese Herausforderung kann nicht mit einem einzigen Gerichtsurteil oder einem Software-Patch gelöst werden. Es ist das kumulative Ergebnis zahlreicher unabhängiger Unternehmensentscheidungen, die gemeinsam die Kernmission der Wayback Machine untergraben: die umfassende Archivierung des öffentlichen Webs. Folgen Sie dem Einfluss, nicht der Rhetorik; Medienunternehmen behaupten die Kontrolle über ihre Daten, selbst auf Kosten des öffentlichen Zugangs.

Martin Fehrensen, Medienjournalist und Gründer der deutschen Website socialmediawatchblog.de, erklärte der DW, dass archive.org die einzige funktionierende Nachweiskette für das offene Web darstellt. Er warnte, dass die Auswirkungen erheblich wären, wenn das Archiv seine Funktionen nicht erfüllen könne. "Millionen von Wikipedia-Quellenangaben verlieren ihre Wurzeln. Die Forschung zur Plattform-Verantwortlichkeit – welche allgemeinen Geschäftsbedingungen wann gültig sind, Änderungen an Moderationsregeln – wird erheblich schwieriger, digitale Beweismittel, die vor Gericht Bestand haben, hören auf zu existieren", erklärte Fehrensen.

Er fügte hinzu, dass es völlig unlogisch sei, wenn Medienunternehmen den Zugang zu einem Archiv blockieren, auf das sie sich selbst verlassen. Die größere Bedeutung dieses Konflikts kann nicht hoch genug eingeschätzt werden. Wenn große Nachrichtenorganisationen die Archivierung ihrer Inhalte einschränken, schaffen sie effektiv ein selektives Gedächtnis des Internets.

Diese Maßnahme wirkt sich direkt auf die Fähigkeit zukünftiger Generationen aus, die Vergangenheit zu verstehen, historische Narrative zu überprüfen und Macht zur Rechenschaft zu ziehen. Sie schafft ein Vakuum, in dem Fakten manipuliert werden oder einfach verschwinden können. Hier ist, was sie Ihnen nicht sagen: Dies ist ein Kampf um die Integrität der digitalen Aufzeichnung selbst und das Recht der Öffentlichkeit auf Zugang dazu.

Mark Graham von der Wayback Machine hat angedeutet, dass er sich in laufenden Gesprächen mit Medienunternehmen befindet, um den Zugang wiederherzustellen. Seine vorläufige Einschätzung bietet eine deutliche Warnung: "Es steht außer Frage, dass die allgemeine Abschottung immer größerer Teile des öffentlichen Webs die Fähigkeit der Gesellschaft beeinträchtigt, zu verstehen, was in unserer Welt vor sich geht." Fehrensen skizzierte zwei mögliche Wege zur Lösung dieses eskalierenden Konflikts. Er plädiert für einen Verlegerdialog, der eine klare technische Trennung zwischen Archivierung und KI-Training herstellt, und identifiziert dies als den wahren Kern des Streits.

Mittelfristig glaubt er, dass Web-Archive einen besonderen rechtlichen Status benötigen. Weiter in die Zukunft blickend, argumentiert Fehrensen, dass Web-Archivierung als öffentliche Infrastruktur behandelt werden sollte, anstatt von einer einzigen in San Francisco ansässigen Nichtregierungsorganisation abhängig zu bleiben. Die Zukunft des digitalen Gedächtnisses und der öffentliche Zugang dazu werden davon abhängen, ob diese Diskussionen konkrete Lösungen hervorbringen oder ob sich die digitalen Tore weiter schließen.

Wichtige Erkenntnisse
— - Über 240 Nachrichtenagenturen, darunter The New York Times und The Guardian, blockieren die Wayback Machine des Internet Archive.
— - Medienunternehmen nennen Bedenken, dass KI-Firmen archivierte Inhalte ohne Genehmigung oder Vergütung für das Modelltraining nutzen.
— - Diese Blockade gefährdet die langfristige Bewahrung digitaler Nachrichten und kritischer historischer Aufzeichnungen.
— - Experten schlagen Lösungen vor, wie eine technische Trennung für den KI-Zugriff und die Etablierung der Web-Archivierung als öffentliche Infrastruktur.

Quelle: DW

Berichterstattung von James Okafor, Horizon Reports — 22. April 2026