Internet Archive Uso y Recuperación de Sitios Webs
Internet Archive Uso y Recuperación de Sitios Webs

Internet Archive: Cómo Recuperar Información Borrada y Restaurar Sitios

En este artículo trataremos sobre Internet Archive y Wayback Machine: cómo recuperar la información eliminada de los sitios, cómo descargar ya sitios inexistentes y otros ejemplos y casos de uso.

El principio de funcionamiento de todos los Internet Archive (Archivos de Internet) es similar: alguien (cualquier usuario) indica una página para guardar. El Internet Archive la descarga, incluyendo el texto, las imágenes y los estilos de diseño, y la guarda. Si se solicita, la página guardada puede verse desde el Internet Archive, y no importa si la página original ha cambiado o si el sitio no está disponible o ha dejado de existir por completo.

Muchos Archivos de Internet almacenan varias versiones de la misma página, tomando una instantánea de la misma en diferentes momentos. Gracias a ello, se puede rastrear el historial de cambios del sitio o página web a lo largo de los años de su existencia.

Este artículo mostrará cómo encontrar información borrada o modificada, cómo utilizar los Internet Archive para restaurar sitios, páginas individuales o archivos, así como algunos otros casos de uso.

Wayback Machine es el nombre de uno de los populares sitios de archivos de Internet. A veces, Wayback Machine se utiliza como sinónimo de Internet Archive.

¿Qué Archivos de Internet existen?

Conozco tres archivos de páginas web (si conoces más, escríbelos en los comentarios):

Cómo Usar web.archive.org

Este servicio de archivo web también se conoce como Wayback Machine. Dispone de varias funciones adicionales, la mayoría de ellas utilizadas por herramientas para restaurar sitios e información.

Para guardar la página en el archivo, dirígete a https://archive.org/web/, introduce la dirección de la página que te interesa y haz clic en el botón ‘SAVE PAGE‘.

Guardar página con Internet Archive
Guardar página con Internet Archive

Para ver las versiones guardadas disponibles de la página web, ve a https://archive.org/web/, introduce la dirección de la página que te interesa o el dominio del sitio web y haz clic en ‘BROWSE HISTORY‘:

Historial de sitio web en Internet Archive
Historial de sitio web en Internet Archive

En la parte superior dice cuántas instantáneas totales de la página se han tomado, la fecha de la primera y la última instantánea.

A continuación hay una escala de tiempo en la que se puede seleccionar el año de interés, al elegir un año, el calendario se actualizará.

Importante

Ten en cuenta que el calendario no muestra el número de cambios en el sitio, sino el número de veces que la página fue archivada.

Los puntos en el calendario significan diferentes eventos, diferentes colores tienen diferentes significados sobre la captura de la web. El azul significa que al archivar la página desde el servidor web se recibió un código de respuesta 2XX (todo está bien); el verde significa que el rastreador ha recibido el estado 3XX (redirección); el naranja significa que el estado es 4XX (error en el lado del cliente, por ejemplo, la página no se encontró), y el rojo significa que el archivo recibió un error 5XX (problemas en el servidor). Lo más probable es que te interesen los puntos y enlaces azules y verdes.

Calendario dentro de Wayback Machine
Calendario dentro de Wayback Machine

Al hacer clic en la hora seleccionada, se abrirá un enlace, por ejemplo, y se mostrará cómo era la página en ese momento:

Sitio Web Archivado con Internet Archive
Sitio Web Archivado con Internet Archive

Con estos iconos, puede ir a la siguiente instantánea de la página, o saltar a la fecha deseada:

Ubicación de fechas en Wayback Machine
Ubicación de fechas en Wayback Machine

La mejor manera de ver todos los archivos que se han archivado para un sitio concreto es abrir un enlace como https://web.archive.org/*/www.sitioweb.com, por ejemplo:

https://web.archive.org/web/*/esgeeks.com

Además del calendario, están disponibles las siguientes páginas:

  • Colecciones. Disponibles como funciones adicionales para los usuarios registrados y mediante suscripción.
  • Changes (Cambios)
  • Summary (Resumen)
  • Site Map (Mapa del sitio)

Changes o Cambios

Changes es una herramienta que puedes utilizar para identificar y mostrar los cambios en el contenido de las URL archivadas.

Puedes empezar seleccionando dos días diferentes de una URL. Para ello, haz clic en los puntos correspondientes:

Opción Changes de Wayback Machine
Opción Changes de Wayback Machine

Y haz clic en el botón Compare. Como resultado, se mostrarán dos opciones de página. El amarillo indica el contenido eliminado, y el azul indica el contenido añadido.

Summary o Resumen

En esta pestaña, se muestran estadísticas sobre el número de cambios de tipos MIME.

Resumen sobre el recuento de tipos MIME
Resumen sobre el recuento de tipos MIME

Site map o Mapa de sitio

Como su nombre indica, aquí se muestra un diagrama del mapa del sitio, mediante el cual puedes ir al archivo de la página que te interesa.

Buscar en el Internet Archive

Si en lugar de la dirección de la página introduces otra cosa, se realizará una búsqueda en los sitios archivados:

Buscar por palabra en Internet Archive
Buscar por palabra en Internet Archive

Visualizar la página de una fecha determinada

Además de utilizar el calendario para ir a la fecha deseada, puedes ver la página de la fecha deseada utilizando el siguiente formato:

https://web.archive.org/web/YYYYMMDDHHMMSS/DIRECCION_PAGINA/

Ten en cuenta que en la línea YYYYMMDDHHMMSS puedes omitir cualquier número de dígitos finales.

Si no se encuentra ninguna copia de archivo en la fecha deseada, se mostrará la versión para la fecha disponible más cercana.

Cómo Usar archive.md

En la página principal, los campos que se explican por sí mismos son

  • Mi URL está en línea y quiero archivar su contenido
  • Buscar por el archivo
Uso de archive.md
Uso de archive.md

Para buscar en las páginas guardadas, puedes especificar una URL concreta o dominios, por ejemplo

  • microsoft.com mostrará las imágenes del host microsoft.com
  • *.microsoft.com mostrará las imágenes del host microsoft.com y todos sus subdominios (por ejemplo, www.microsoft.com)
  • https://twitter.com/burgerking mostrará el archivo de la URL dada (la búsqueda distingue entre mayúsculas y minúsculas)
  • https://twitter.com/burg* buscará las URLs archivadas que empiecen por http://twitter.com/burg

Este servicio guarda las siguientes partes de la página

  • Contenido de texto de la página web
  • Imágenes
  • Contenido de los Frames
  • Contenido e imágenes cargadas o generadas mediante JavaScript en sitios Web 2.0
  • Capturas de pantalla de 1024×768 píxeles.

Las siguientes partes de las páginas web no se guardan

  • Flash y el contenido que carga
  • Vídeo y sonidos
  • PDF
  • Las páginas RSS y otras páginas XML no se guardan. La mayoría de ellas no se guardan, o se guardan como páginas en blanco.

La página archivada y todas las imágenes deben ocupar menos de 50 megabytes.

Para cada página archivada se crea un enlace de la forma https://archive.is/XXXXX, donde XXXXX es el identificador único de la página. Además, se puede acceder a cualquier página archivada de la siguiente manera

  • https://archive.is/2012/http://www.google.es/ es la instantánea más reciente de 2012.
  • https://archive.is/201201/http://www.google.es/ – la instantánea más reciente de enero de 2012.
  • https://archive.is/20120101/http://www.google.es/ – la instantánea más reciente del día 1 de enero de 2012.

La fecha puede continuar indicando horas, minutos y segundos:

  • https://archive.is/2012010103/http://www.google.es/
  • https://archive.is/201201010313/http://www.google.es/
  • https://archive.is/20120101031355/http://www.google.es/

Para mejorar la legibilidad, el año, el mes, el día, las horas, los minutos y los segundos pueden separarse con puntos, guiones o dos puntos:

  • https://archive.is/2012-0828/http://hakin9.org/
  • https://archive.is/2012.08.28-13:08:20/http://hakin9.org/

También es posible hacer referencia a todas las instantáneas de la URL especificada:

  • https://archive.is/http://www.google.es/

Todas las páginas de dominio guardadas:

  • https://archive.is/www.google.es

Todas las páginas guardadas de todos los subdominios

  • https://archive.is/*.google.es

Para acceder a la última versión de una página del archivo o a la más antigua, se admiten direcciones con el siguiente formato:

  • https://archive.is/newest/http://reddit.com/
  • https://archive.is/oldest/http://reddit.com/

Para acceder a una parte específica de una página larga, hay dos opciones:

  • Añadir un hashtag (#) con una posición de desplazamiento porcentual de la cual el número está entre 0 (parte superior de la página) y 100 (parte inferior de la página). Por ejemplo, https://archive.md/ssIXx#95%
  • Seleccionar el texto de las páginas y obtener la URL con un hashtag que apunte a esta sección. Por ejemplo, https://archive.md/ssIXx#selection-2161.0-2216.0

Los dominios admiten caracteres nacionales:

  • https://archive.is/www.maroñas.com.uy
  • https://archive.is/*.测试

Ten en cuenta que al crear una copia de archivo de la página, la dirección IP de la persona que crea la instantánea de la página se envía al sitio archivado. Esto se hace a través de la cabecera X-Forwarded-For para identificar correctamente tu región y mostrar el contenido pertinente.

¿Qué Sucede si la Página Eliminada no se Guarda en Ninguno de los Archivos?

Los archivos de Internet guardan las páginas sólo si algún usuario ha solicitado esta acción – no tienen funciones de rastreo y no buscan nuevas páginas y enlaces. Por esta razón, es posible que la página que te interesa haya sido eliminada antes de que se guardara en algún archivo de Internet.

No obstante, puedes utilizar los servicios de los motores de búsqueda que buscan activamente nuevos enlaces y guardan rápidamente las nuevas páginas. Para visualizar una página de la caché de Google, hay que introducir en la búsqueda de Google:

cache:URL

Por ejemplo:

cache:https://esgeeks.com/?p=9193

Si introduce una consulta similar en una búsqueda de Google, se abrirá inmediatamente la página de la caché.

  • Para ver la versión de texto, puedes utilizar el enlace con el formato siguiente: (cambia URL por tu URL/Enlace)
https://webcache.googleusercontent.com/search?q=cache:URL&strip=1&vwsrc=0
  • Para ver el código fuente de una página web de la caché de Google, utiliza el siguiente formato: (cambia URL por tu URL/Enlace)
http://webcache.googleusercontent.com/search?q=cache:URL&strip=0&vwsrc=1

Cómo Descargar Completamente un Sitio de un Archivo Web

Si quieres recuperar un sitio borrado, Wayback Machine Downloader te ayudará. (Alternativamente, te interesará leer sobre httrack)

El programa descargará la última versión de cada archivo presente en el archivo de Internet de Wayback Machine y la guardará en una carpeta con el formato ./websites/ejemplo.com/. También recreará la estructura de directorios y creará automáticamente las páginas index.html para que el sitio descargado pueda colocarse en el servidor web Apache o Nginx sin ningún cambio.

Para instalar Wayback Machine Downloader en Kali Linux:

gem install wayback_machine_downloader
wayback_machine_downloader --help
Instalar wayback_machine_downloader en Linux
Instalar wayback_machine_downloader en Linux

Para instalar Wayback Machine Downloader en BlackArch:

gem install wayback_machine_downloader
sudo mv ~/.gem/ruby/2.6.0/bin/wayback_machine_downloader /usr/local/bin/
wayback_machine_downloader --help

Uso:

wayback_machine_downloader https://ejemplo.com

Opciones:

Optional options:
    -d, --directory PATH             Directory to save the downloaded files into
                                     Default is ./websites/ plus the domain name
    -s, --all-timestamps             Download all snapshots/timestamps for a given website
    -f, --from TIMESTAMP             Only files on or after timestamp supplied (ie. 20060716231334)
    -t, --to TIMESTAMP               Only files on or before timestamp supplied (ie. 20100916231334)
    -e, --exact-url                  Download only the url provied and not the full site
    -o, --only ONLY_FILTER           Restrict downloading to urls that match this filter
                                     (use // notation for the filter to be treated as a regex)
    -x, --exclude EXCLUDE_FILTER     Skip downloading of urls that match this filter
                                     (use // notation for the filter to be treated as a regex)
    -a, --all                        Expand downloading to error files (40x and 50x) and redirections (30x)
    -c, --concurrency NUMBER         Number of multiple files to dowload at a time
                                     Default is one file at a time (ie. 20)
    -p, --maximum-snapshot NUMBER    Maximum snapshot pages to consider (Default is 100)
                                     Count an average of 150,000 snapshots per page
    -l, --list                       Only list file urls in a JSON format with the archived timestamps, won't download anything
    -v, --version                    Display version

Ejemplo de descarga de una copia completa del sitio web suip.biz desde el Internet archive:

wayback_machine_downloader https://suip.biz
Ejemplo de uso de Wayback Machine Downloader
Ejemplo de uso de Wayback Machine Downloader

La estructura de los archivos descargados:

Estructura de los archivos descargados
Estructura de los archivos descargados

Cómo Descargar Todos los Cambios de Página de un Archivo Web

Si no te interesa todo el sitio, sino una página específica, pero necesitas rastrear todos los cambios en ella, entonces utiliza el programa Waybackpack.

Para instalar Waybackpack en Kali Linux:

sudo apt install python3-pip
sudo pip3 install waybackpack

Para instalar Waybackpack en BlackArch:

sudo pacman -S waybackpack

Uso:

waybackpack [-h] [--version] (-d DIR | --list) [--raw] [--root ROOT] [--from-date FROM_DATE] [--to-date TO_DATE] [--user-agent USER_AGENT] [--follow-redirects] [--uniques-only]
                   [--collapse COLLAPSE] [--ignore-errors] [--quiet]
                   url

Opciones:

positional arguments:
  url                   The URL of the resource you want to download.
 
optional arguments:
  -h, --help            show this help message and exit
  --version             show program's version number and exit
  -d DIR, --dir DIR     Directory to save the files. Will create this directory if it doesn't already exist.
  --list                Instead of downloading the files, only print the list of snapshots.
  --raw                 Fetch file in its original state, without any processing by the Wayback Machine or waybackpack.
  --root ROOT           The root URL from which to serve snapshotted resources. Default: 'https://web.archive.org'
  --from-date FROM_DATE
                        Timestamp-string indicating the earliest snapshot to download. Should take the format YYYYMMDDhhss, though you can omit as many of the trailing digits as you like.
                        E.g., '201501' is valid.
  --to-date TO_DATE     Timestamp-string indicating the latest snapshot to download. Should take the format YYYYMMDDhhss, though you can omit as many of the trailing digits as you like.
                        E.g., '201604' is valid.
  --user-agent USER_AGENT
                        The User-Agent header to send along with your requests to the Wayback Machine. If possible, please include the phrase 'waybackpack' and your email address. That
                        way, if you're battering their servers, they know who to contact. Default: 'waybackpack'.
  --follow-redirects    Follow redirects.
  --uniques-only        Download only the first version of duplicate files.
  --collapse COLLAPSE   An archive.org `collapse` parameter. Cf.: https://github.com/internetarchive/wayback/blob/master/wayback-cdx-server/README.md#collapsing
  --ignore-errors       Don't crash on non-HTTP errors e.g., the requests library's ChunkedEncodingError. Instead, log error and continue. Cf.
                        https://github.com/jsvine/waybackpack/issues/19
  --quiet               Don't log progress to stderr.

Por ejemplo, para descargar todas las copias de la página principal del sitio web suip.biz, a partir de la fecha (--to-date 2020), estas páginas deben colocarse en la carpeta (-d /home/esgeeks/pentest), mientras que el programa debe seguir las redirecciones HTTP (--follow-redirects):

waybackpack suip.biz -d ./suip.biz-copy --to-date 2020 --follow-redirects
Ejemplo de uso con Waybackpack
Ejemplo de uso con Waybackpack

Estructura del directorio:

tree suip.biz-copy/

Para mostrar una lista de todas las copias disponibles en el Internet Archive (--list) para el sitio especificado (esgeeks.com):

waybackpack esgeeks.com --list
Copias de un sitio web en Internet Archive
Copias de un sitio web en Internet Archive

Cómo Averiguar Todas las Páginas de un Sitio que están Guardadas en Internet Archive

Para obtener los enlaces que están guardados en Internet Archive, utiliza el programa waybackurls.

Este programa recupera todas las URL del dominio especificado que Wayback Machine conoce. Esto puede utilizarse para mapear rápidamente un sitio.

Cómo instalar waybackurls en Kali Linux o Parrot OS:

Empieza por instalar Go, luego escribe:

go get github.com/tomnomnom/waybackurls

Añade el siguiente código en tu archivo .bashrc:

nano ~/.bashrc
#Añade
export PATH="$PATH:$HOME/go/bin"

Entonces:

waybackurls --help

Puedes trabajar con una lista de dominios obteniéndola de la entrada estándar. En esta lista, cada dominio debe ser escrito en una línea separada.

El programa lee los dominios desde la entrada estándar, por lo tanto, para empezar a recibir las direcciones de página de un dominio, es necesario utilizar un comando como este:

echo DOMINIO| waybackurls

Para obtener todas las URL de muchos sitios como DOMINIOS.txt, es necesario especificar un archivo que enumere todos los dominios en el formato de un dominio por línea:

cat DOMINIOS.txt | waybackurls

Opciones:

Usage of waybackurls:
  -dates
    	show date of fetch in the first column
  -get-versions
    	list URLs for crawled versions of input URL(s)
  -no-subs
    	don't include subdomains of the target domain

Para obtener una lista de todas las páginas que Wayback Machine conoce del dominio suip.biz:

echo suip.biz | waybackurls
Ejemplo de uso de waybackurls
Ejemplo de uso de waybackurls

Conclusión

Un par de programas más que también funcionan con el Internet archive:

  • https://github.com/relrelb/wayback-downloader
  • https://github.com/erlange/wbm-dl

También recomiendo utilizar ArchiveFuzz para encontrar activos de WebArchives y revisar nuestra guía introductoria WayBak Machine para reconocimiento pasivo.

Mi Carro Close (×)

Tu carrito está vacío
Ver tienda