La 'Wayback Machine' del Internet Archive, un repositorio crucial de la historia digital, se enfrenta a un desafío existencial a medida que un número creciente de destacados medios de comunicación restringen activamente su acceso a su contenido en línea. Al menos 241 organizaciones de noticias en nueve países han implementado medidas de bloqueo, según una investigación de la Nieman Foundation for Journalism de la Universidad de Harvard. Esta medida amenaza con borrar porciones significativas de la web pública del registro histórico, poniendo en peligro la investigación futura y la rendición de cuentas periodística.
Durante tres décadas, la plataforma archive.org ha servido como una biblioteca digital indispensable, preservando meticulosamente el contenido de internet. Su 'Wayback Machine' ahora alberga más de mil millones de páginas web archivadas, ofreciendo un recurso crucial para periodistas, historiadores, investigadores y profesionales del derecho que buscan verificar o recuperar información en línea eliminada. Esta vasta colección ha permitido que innumerables investigaciones avancen, proporcionando un registro inmutable en un panorama digital en constante cambio.
Sin embargo, este proyecto sin fines de lucro con sede en San Francisco ahora se enfrenta a un desafío significativo, irónicamente, de las mismas entidades que con frecuencia dependen de sus servicios: los propios medios de comunicación. Un número considerable de grandes editoriales están negando sistemáticamente al Internet Archive el acceso a su contenido. Esto no es un fallo técnico; es una decisión corporativa deliberada.
La Nieman Foundation for Journalism de la Universidad de Harvard documentó que 241 medios de comunicación distintos en nueve naciones han implementado medidas para bloquear los rastreadores web del archivo. Estos incluyen nombres reconocidos a nivel mundial como The Guardian del Reino Unido, The New York Times, Le Monde de Francia y el conglomerado de periódicos más grande de EE. UU., USA Today Co. La ironía aquí es evidente.
USA Today publicó recientemente un informe detallado sobre los esfuerzos de la autoridad de inmigración de EE. UU., ICE, para retener información sobre sus políticas de detención. Esa investigación, un testimonio de periodismo riguroso, se basó en gran medida en datos preservados por la Wayback Machine de archive.org. La misma corporación que se benefició directamente de la existencia del archivo ahora está impidiendo activamente que el archivo preserve sus propios reportajes.
Las cuentas no cuadran. Las editoriales articulan una razón clara para este cambio de política: el creciente temor a la inteligencia artificial. Estas organizaciones temen que las empresas de IA, incluidos gigantes de la industria como OpenAI y Google, exploten el archivo como una fuente de datos masiva y no autorizada.
Creen que estas entidades de IA recopilarán su contenido periodístico para entrenar grandes modelos de lenguaje, todo sin permiso explícito ni ninguna forma de compensación económica. Aquí es donde las dinámicas de poder se revelan verdaderamente. Graham James, portavoz de The New York Times, articuló esta preocupación directamente. "El problema es que el contenido del Times en el Internet Archive está siendo utilizado por empresas de IA en violación de la ley de derechos de autor para competir directamente con nosotros", afirmó James, subrayando la amenaza económica percibida.
Esta perspectiva enmarca el archivo no como un bien público, sino como un conducto para la explotación comercial por parte de terceros. De hecho, los datos recopilados por el propio archive.org indican un aumento en la actividad de bots en su sitio web. Mark Graham, Director de la Wayback Machine, confirmó a la revista Wired que varias empresas habían accedido, en varias ocasiones, a los archivos con decenas de miles de solicitudes por segundo.
Estas intensas consultas ocasionalmente sobrecargaron los servidores del archivo. El archivo no estaba equipado para este tipo de extracción de datos sostenida y de alto volumen, operando bajo un paradigma diferente. El compromiso fundamental del Internet Archive es con una internet abierta.
Su principio rector, "Como una biblioteca de papel, proporcionamos acceso gratuito a investigadores, historiadores, académicos, personas con discapacidades de impresión y al público en general. Nuestra misión es proporcionar Acceso Universal a Todo el Conocimiento", refleja un ethos de larga data de intercambio de información sin restricciones. Esta misión hace inherentemente difícil para la organización sin fines de lucro excluir selectivamente bots o rastreadores específicos sin comprometer sus principios fundamentales.
Esta adhesión a un modelo abierto ha llevado, paradójicamente, a sanciones por parte de importantes editoriales y medios de comunicación, creando un punto muerto. La organización de derechos humanos Electronic Frontier Foundation (EFF), que se centra en cuestiones digitales, ofreció una analogía concisa para resaltar las implicaciones. "Imagina a un editor de periódicos anunciando que ya no permitirá que las bibliotecas guarden copias de su periódico", comentó un representante de la EFF. Esta comparación subraya la amenaza fundamental para la preservación a largo plazo de la información pública y el registro histórico.
Las implicaciones van mucho más allá de las disputas comerciales. Más de 100 periodistas han expresado su apoyo al Internet Archive firmando una carta abierta. En su declaración colectiva, enfatizaron el papel crítico del archivo: "En un panorama de medios digitales donde los artículos desaparecen debido a la caducidad de enlaces, la consolidación corporativa o los recortes de costos, los reporteros con frecuencia confían en la Wayback Machine del Archivo para recuperar páginas que de otro modo se perderían.
Sin ese trabajo continuo para preservar la web, gran parte de la historia reciente del periodismo ya se habría perdido." Esto resalta una necesidad tangible e inmediata de la operación continua del archivo, particularmente porque el contenido digital resulta ser más efímero que el impreso. Esta no es la primera vez que el Internet Archive se encuentra luchando por su existencia. En septiembre de 2024, un ciberataque comprometió datos de 31 millones de cuentas de usuario, un duro golpe para la seguridad operativa y la confianza pública de la organización.
Ese mismo año, el archivo sufrió una importante derrota legal en la disputa de derechos de autor "Hachette v. Internet Archive" en un tribunal de apelaciones de EE. UU. Grandes editoriales, incluyendo Hachette, Penguin Random House, HarperCollins y Wiley, demandaron con éxito por un programa de préstamo gratuito de libros electrónicos que el archivo había iniciado durante la pandemia de COVID-19.
El fallo obligó a la eliminación de más de 500.000 libros del programa, y archive.org ahora se enfrenta a posibles reclamaciones por daños que ascienden a millones de dólares. Estas batallas pasadas fueron significativas, pero fundamentalmente diferentes. En comparación con esos reveses, que fueron técnicos o judiciales, la amenaza actual que plantean los bloqueos mediáticos es estructuralmente más compleja y, quizás, más duradera.
Este desafío no puede resolverse con un único veredicto judicial o un parche de software. Es el resultado acumulativo de numerosas decisiones corporativas independientes que socavan colectivamente la misión principal de la Wayback Machine: el archivo exhaustivo de la web pública. Sigan la influencia, no la retórica; las empresas de medios están afirmando el control sobre sus datos, incluso a costa del acceso público.
Martin Fehrensen, periodista de medios y fundador del sitio web alemán socialmediawatchblog.de, dijo a DW que archive.org representa la única cadena de custodia funcional para la web abierta. Advirtió que si el archivo no puede cumplir sus funciones, las repercusiones serían sustanciales. "Millones de notas de fuentes de Wikipedia pierden sus raíces. La investigación sobre la rendición de cuentas de las plataformas —qué términos comerciales generales son válidos cuándo, cambios en las reglas de moderación— se volverá significativamente más difícil, la evidencia digital que puede sostenerse en un tribunal deja de existir", explicó Fehrensen.
Añadió que los medios de comunicación que bloquean el acceso a un archivo del que ellos mismos dependen es completamente ilógico. La importancia más amplia de este conflicto no puede exagerarse. Cuando las principales organizaciones de noticias restringen el archivo de su contenido, están creando efectivamente una memoria selectiva de internet.
Esta acción impacta directamente la capacidad de las futuras generaciones para comprender el pasado, verificar narrativas históricas y responsabilizar al poder. Crea un vacío donde los hechos pueden ser manipulados o simplemente desaparecer. Esto es lo que no te están diciendo: esta es una batalla por la integridad del propio registro digital y el derecho del público a acceder a él.
Mark Graham de la Wayback Machine ha indicado que está en conversaciones continuas con los medios de comunicación, con el objetivo de restaurar el acceso. Su evaluación preliminar ofrece una dura advertencia: "No hay duda de que el cierre generalizado de cada vez más partes de la web pública está afectando la capacidad de la sociedad para comprender lo que sucede en nuestro mundo". Fehrensen esbozó dos posibles vías para resolver este conflicto creciente. Aboga por un diálogo entre editores que establezca una clara separación técnica entre el archivo y el entrenamiento de IA, identificando esto como el verdadero quid de la disputa.
A medio plazo, cree que los archivos web necesitan un estatus legal especial. Mirando más allá, Fehrensen sostiene que el archivo web debería tratarse como una infraestructura pública, en lugar de seguir dependiendo de una única organización no gubernamental con sede en San Francisco. El futuro de la memoria digital y el acceso del público a ella dependerá de si estas discusiones producen soluciones concretas o si las puertas digitales continúan cerrándose.
Puntos clave
— - Más de 240 medios de comunicación, incluyendo The New York Times y The Guardian, están bloqueando la Wayback Machine del Internet Archive.
— - Las empresas de medios citan preocupaciones de que las empresas de IA están utilizando contenido archivado para el entrenamiento de modelos sin permiso ni compensación.
— - Este bloqueo pone en peligro la preservación a largo plazo de las noticias digitales y los registros históricos críticos.
— - Los expertos proponen soluciones como la separación técnica para el acceso de la IA y el establecimiento del archivo web como una infraestructura pública.
Fuente: DW









