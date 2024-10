Su objetivo es claro, pero complejo: lograr conservar la mayor cantidad de información en una época caracterizada por la vertiginosidad y la creación constante de contenidos. "Los riesgos son múltiples. No sólo que la tecnología pueda fallar (eso sin duda sucede). Pero lo que es más importante, que las instituciones fallen o las empresas quiebren . Las organizaciones de noticias son absorbidas por otras organizaciones de noticias o, cada vez con más frecuencia, son cerradas ", explicó Mark Graham , director de la Wayback Machine, del Internet Archive.

La misión no es sencilla. En la actualidad, una cuarta parte de todas las páginas web que existían en algún momento entre 2013 y 2023 ya no existen, tal como lo indica un estudio reciente del Pew Research Center, un grupo de expertos con sede en Washington DC, que dio la voz de alarma sobre la desaparición de nuestra historia digital.

Los investigadores descubrieron que el problema es más grave cuanto más antigua es una página web: el 38% de las páginas web a las que Pew intentó acceder que existían en 2013 ya no funcionan. En el presente, alrededor del 8% de las páginas web publicadas en algún momento de 2023 desaparecieron en octubre de ese mismo año.

Esto no es solo una preocupación para los aficionados a la historia y los obsesivos de internet. Según el estudio, uno de cada cinco sitios web gubernamentales contiene al menos un enlace roto. Pew descubrió que más de la mitad de los artículos de Wikipedia tienen un link inválido en su sección de referencias, lo que significa que la evidencia que respalda la información de la enciclopedia en línea se está desapareciendo lentamente.

El trabajo de Wayback Machine, del Internet Archive, buscan justamente resguardar esta información. Con ejércitos de robots, la organización recorre los laberintos de internet para descargar copias funcionales de sitios web a medida que cambian con el tiempo y ponerlas a disposición del público de forma gratuita.

Algunas otras organizaciones trabajan en proyectos similares. La Biblioteca del Congreso de Estados Unidos, por ejemplo, conserva los sitios web del gobierno, los sitios de los miembros del Congreso y una colección de sitios de noticias estadounidenses. Este mismo organismo también conservó una copia de cada uno de los tuits enviados desde la fundación de Twitter (ahora conocido como X), hasta que el proyecto se cerró en 2017.

Otros gobiernos llevan a cabo sus propias iniciativas. El Archivo Web de Reino Unido realiza un rastreo anual de sitios web con nombres de dominio .UK, capturando una instantánea de la internet británica al menos una vez al año.

Las amenazas al archivo digital de internet

La semana pasada, la organización anunció una importante asociación con Google, en la que el gigante tecnológico incluirá enlaces a la Wayback Machine en los resultados de búsqueda, aunque no se publicaron detalles financieros del acuerdo. Sin embargo, otras noticias recientes demuestran que el proyecto sigue siendo frágil. Esa vulnerabilidad quedó al descubierto en un caso judicial contra el Internet Archive por parte de cuatro grandes editoriales de libros, que alegaron que la práctica de escanear libros físicos y prestar copias digitales viola la ley de derechos de autor en EE.UU.

En detalle, ates de la pandemia de Covid-19, el Internet Archive solo prestaba una copia digital a la vez de cada libro físico de su colección. Pero durante la cuarentena, la organización levantó esa restricción, permitiendo a los usuarios tomar prestadas copias digitales ilimitadas de libros para intentar compensar el cierre de las bibliotecas físicas.

memoria-internet.jpg Internet se convirtió en la gran memoria de la humanidad y distintas organizaciones buscan preservarla.

Ante las denuncias de las editoriales, un tribunal estadounidense dictaminó que esa práctica era ilegal en 2023 y, a principios de septiembre, la apelación del Internet Archive contra esa decisión fue rechazada. La organización dijo anteriormente que acordó pagar a un grupo comercial de la industria editorial una suma no revelada en relación con el caso.

Internet Archive se enfrenta a un caso similar con las discográficas, por digitalizar discos, conflicto que podría costarle u$s400 millones si pierde. Es una cantidad que podría poner en peligro la supervivencia de la organización sin ánimo de lucro.

Las batallas legales existenciales no son los únicos peligros que amenazan al mundo de la preservación digital. El Archivo Web de Reino Unido de la Biblioteca Británica enfrentó un ciberataque que dejó fuera de línea sus sistemas digitales en octubre de 2023. Casi un año después, este archivo todavía está lidiando con las consecuencias. El acceso en línea a gran parte de su colección sigue sin estar disponible.

La organización comparte estas preocupaciones. Si el trabajo del Internet Archive se detuviera y "ese vacío no se llenara de inmediato, entonces gran parte de lo que está disponible actualmente en la web pública estaría en riesgo", detalló Graham.

Una respuesta no oficial

Sin un esfuerzo formal para organizar los intentos para preservar internet, esta tarea titánica queda en manos de aficionados, voluntarios y unos pocos organismos no oficiales que generalmente operan de forma independiente. "Tiene sentido que la respuesta del archivo esté descentralizada", explicó Mar Hicks, historiador de tecnología de la Universidad de Virginia, en EE.UU. "Pero uno de los problemas es la variedad de prioridades".

En esta línea, el historiador aseguró que "cuando está todo tan descentralizado, las prioridades van a ser muy diferentes". La preocupación sobre un enfoque tan ad hoc y descentralizado es que es posible que haya superposiciones, lo que significa que se desperdician valiosos recursos de archivo obteniendo copias duplicadas o triplicadas de los sitios web más populares, todo mientras se pasan por alto algunas áreas que pueden tener importancia histórica porque caen entre las responsabilidades de diferentes grupos.

"Los archiveros dirán que estos problemas existen desde hace mucho tiempo", ahondó Hicks. Este problema se ve amplificado por el nivel de material que se produce en nuestro mundo digital: todos los días se envían casi 1.000 millones de correos electrónicos y en Youtube se publican más de 500 horas de contenido de video cada minuto.

"Internet es esencialmente una manguera de información y material", definió Hicks. "No tiene sentido tratar de capturar todo lo que sale de la manguera. Eso no tendría sentido desde el punto de vista de los recursos".

Para Hicks, debe haber algún tipo de prioridad sobre lo que se está salvando de las huellas digitales de nuestra generación. De lo contrario, corremos el riesgo de que el rápido aumento de los costes haga a un lado los esfuerzos por salvar la historia de la web, por no hablar de los océanos de archivos digitales que se encuentran fuera de línea.

Una cosa sí está clara, señaló Hicks: todos deberíamos contribuir para apoyar la lucha por la preservación. "Desde una perspectiva muy pragmática, si no pagamos a estas personas y nos aseguramos de que estos archivos estén financiados, no existirán en el futuro, se desintegrarán y entonces el objetivo de recopilarlos se habrá ido por la ventana", dice Hicks. "Porque el objetivo del archivo no es simplemente recopilar, sino que persista indefinidamente en el futuro".