Wayback Machine

archivo digital de páginas web

Wayback Machine (pronunciado [ˈwejbak maˈʃin]) es un servicio y una base de datos que contiene copias de una enorme cantidad de páginas o sitios de Internet. Como consecuencia de este proyecto, también se puede consultar la historia y las modificaciones de las páginas a través del tiempo.

Wayback Machine
Información general
Dominiohttps://web.archive.org/
https://archive.org/web/
TipoArchivo
ComercialNo
RegistroNo
Idiomas disponiblesInglés
Español
En español
Estado actualen línea
Gestión
DesarrolladorBrewster Kahle
Bruce Gilliat
PropietarioInternet Archive
OperadorInternet Archive
Lanzamiento10 de mayo de 1996 (privado) y 24 de octubre de 2001 (público)
Estadísticas
Ranking AlexaDecrecimiento 211 (19 de enero de 2021)[1]

Características

El servicio Wayback Machine funciona de una manera simple: basta teclear la dirección (URL) de una página web para ver cuál es la última copia que hay guardada en el archivo.[2]​ Si queremos ver cómo era hace un tiempo una página en cuestión, entonces Wayback Machine nos pedirá en qué fecha y año queremos visitar la página. Existe un calendario en la parte superior de la pantalla, que permite ver gráficamente las capturas a lo largo del tiempo. La longitud de las barras del gráfico indica en qué meses se hicieron más copias.

Lo que hace este sitio para almacenar todo el contenido de la página web es muy simple pero ingenioso: almacena solo el contenido html del código fuente y no guarda las imágenes sino solo el código; por eso, cuando un servidor de imágenes elimina alguna imagen del sitio web original, esta no es reproducida, sino que se marca como un error 404. En 2012 contenía 10 petabytes de información y crecía en torno a 20 terabytes por mes,[3]​ en octubre de 2019 su almacenamiento sobrepasó los 20 petabytes.[4]​ En diciembre de 2020 su almacenamiento superó los 70 petabytes.[5]

Sin embargo Wayback Machine está lejos de ser una copia completa de internet pues varios sitios evitan su indexación y grabación de información, como por ejemplo usando el archivo robots.txt con:User-agent: ia_archiver Disallow: /

Wayback CDX Server API

Desde noviembre de 2015 Wayback Machine cuenta con un servicio de indización de capturas de páginas que permite, rápidamente, conocer el historial de grabado para cada URL tanto en formato propio como en formato JSON.[6]​ Dicho servicio es un proyecto en fase beta denominado Wayback CDX Server API y cuyo código fuente y manual de uso está alojado en GitHub.[7]

Incidencias

A lo largo de su historia la Wayback Machine, ha presentado una serie de incidencias, de las cuales las más importantes han sido las siguientes:

  • En enero de 2017 desarrollaron un complemento, tanto para el navegador Chromium como Google Chrome,[8]​ que permite guardar la página web que se está visualizando, buscar si esa página ha sido guardada anteriormente en la Wayback Machine e incluso permite hacer una búsqueda rápida en Twitter, entre otras funcionalidades. El complemento está debidamente catalogado en la Chrome Web Store.[9]
  • En octubre de 2020, el sitio Wayback dejó de funcionar; aunque posteriormente volvió a funcionar tras solucionarse el error un mes más tarde.

Referencias

Enlaces externos