▷ Internet Archive » Recuperar Información Borrada y Restaurar Sitios

En este artículo trataremos sobre Internet Archive y Wayback Machine: cómo recuperar la información eliminada de los sitios, cómo descargar ya sitios inexistentes y otros ejemplos y casos de uso.

El principio de funcionamiento de todos los Internet Archive (Archivos de Internet) es similar: alguien (cualquier usuario) indica una página para guardar. El Internet Archive la descarga, incluyendo el texto, las imágenes y los estilos de diseño, y la guarda. Si se solicita, la página guardada puede verse desde el Internet Archive, y no importa si la página original ha cambiado o si el sitio no está disponible o ha dejado de existir por completo.

Muchos Archivos de Internet almacenan varias versiones de la misma página, tomando una instantánea de la misma en diferentes momentos. Gracias a ello, se puede rastrear el historial de cambios del sitio o página web a lo largo de los años de su existencia.

Este artículo mostrará cómo encontrar información borrada o modificada, cómo utilizar los Internet Archive para restaurar sitios, páginas individuales o archivos, así como algunos otros casos de uso.

Wayback Machine es el nombre de uno de los populares sitios de archivos de Internet. A veces, Wayback Machine se utiliza como sinónimo de Internet Archive.

Tabla de Contenido

¿Qué Archivos de Internet existen?
Cómo Usar web.archive.org
Changes o Cambios
Cómo Usar archive.md
¿Qué Sucede si la Página Eliminada no se Guarda en Ninguno de los Archivos?
Cómo Descargar Completamente un Sitio de un Archivo Web
Cómo Descargar Todos los Cambios de Página de un Archivo Web
Cómo Averiguar Todas las Páginas de un Sitio que están Guardadas en Internet Archive
Conclusión

Tabla de Contenido

¿Qué Archivos de Internet existen?
Cómo Usar web.archive.org
Changes o Cambios
Cómo Usar archive.md
¿Qué Sucede si la Página Eliminada no se Guarda en Ninguno de los Archivos?
Cómo Descargar Completamente un Sitio de un Archivo Web
Cómo Descargar Todos los Cambios de Página de un Archivo Web
Cómo Averiguar Todas las Páginas de un Sitio que están Guardadas en Internet Archive
Conclusión

¿Qué Archivos de Internet existen?

Conozco tres archivos de páginas web (si conoces más, escríbelos en los comentarios):

https://web.archive.org/
https://archive.md/ (también utiliza los dominios https://archive.ph/ y https://archive.today/)
https://archive.fo/

Cómo Usar web.archive.org

Este servicio de archivo web también se conoce como Wayback Machine. Dispone de varias funciones adicionales, la mayoría de ellas utilizadas por herramientas para restaurar sitios e información.

Para guardar la página en el archivo, dirígete a https://archive.org/web/, introduce la dirección de la página que te interesa y haz clic en el botón ‘SAVE PAGE‘.

Para ver las versiones guardadas disponibles de la página web, ve a https://archive.org/web/, introduce la dirección de la página que te interesa o el dominio del sitio web y haz clic en ‘BROWSE HISTORY‘:

Historial de sitio web en Internet Archive

En la parte superior dice cuántas instantáneas totales de la página se han tomado, la fecha de la primera y la última instantánea.

A continuación hay una escala de tiempo en la que se puede seleccionar el año de interés, al elegir un año, el calendario se actualizará.

Importante

Ten en cuenta que el calendario no muestra el número de cambios en el sitio, sino el número de veces que la página fue archivada.

Los puntos en el calendario significan diferentes eventos, diferentes colores tienen diferentes significados sobre la captura de la web. El azul significa que al archivar la página desde el servidor web se recibió un código de respuesta 2XX (todo está bien); el verde significa que el rastreador ha recibido el estado 3XX (redirección); el naranja significa que el estado es 4XX (error en el lado del cliente, por ejemplo, la página no se encontró), y el rojo significa que el archivo recibió un error 5XX (problemas en el servidor). Lo más probable es que te interesen los puntos y enlaces azules y verdes.

Al hacer clic en la hora seleccionada, se abrirá un enlace, por ejemplo, y se mostrará cómo era la página en ese momento:

Sitio Web Archivado con Internet Archive

Con estos iconos, puede ir a la siguiente instantánea de la página, o saltar a la fecha deseada:

La mejor manera de ver todos los archivos que se han archivado para un sitio concreto es abrir un enlace como https://web.archive.org/*/www.sitioweb.com, por ejemplo:

https://web.archive.org/web/*/esgeeks.com

Además del calendario, están disponibles las siguientes páginas:

Colecciones. Disponibles como funciones adicionales para los usuarios registrados y mediante suscripción.
Changes (Cambios)
Summary (Resumen)
Site Map (Mapa del sitio)

Changes o Cambios

Changes es una herramienta que puedes utilizar para identificar y mostrar los cambios en el contenido de las URL archivadas.

Puedes empezar seleccionando dos días diferentes de una URL. Para ello, haz clic en los puntos correspondientes:

Y haz clic en el botón Compare. Como resultado, se mostrarán dos opciones de página. El amarillo indica el contenido eliminado, y el azul indica el contenido añadido.

Summary o Resumen

En esta pestaña, se muestran estadísticas sobre el número de cambios de tipos MIME.

Site map o Mapa de sitio

Como su nombre indica, aquí se muestra un diagrama del mapa del sitio, mediante el cual puedes ir al archivo de la página que te interesa.

Buscar en el Internet Archive

Si en lugar de la dirección de la página introduces otra cosa, se realizará una búsqueda en los sitios archivados:

Visualizar la página de una fecha determinada

Además de utilizar el calendario para ir a la fecha deseada, puedes ver la página de la fecha deseada utilizando el siguiente formato:

https://web.archive.org/web/YYYYMMDDHHMMSS/DIRECCION_PAGINA/

Ten en cuenta que en la línea YYYYMMDDHHMMSS puedes omitir cualquier número de dígitos finales.

Si no se encuentra ninguna copia de archivo en la fecha deseada, se mostrará la versión para la fecha disponible más cercana.

Cómo Usar archive.md

En la página principal, los campos que se explican por sí mismos son

Mi URL está en línea y quiero archivar su contenido
Buscar por el archivo

Para buscar en las páginas guardadas, puedes especificar una URL concreta o dominios, por ejemplo

microsoft.com mostrará las imágenes del host microsoft.com
*.microsoft.com mostrará las imágenes del host microsoft.com y todos sus subdominios (por ejemplo, www.microsoft.com)
https://twitter.com/burgerking mostrará el archivo de la URL dada (la búsqueda distingue entre mayúsculas y minúsculas)
https://twitter.com/burg* buscará las URLs archivadas que empiecen por http://twitter.com/burg

Este servicio guarda las siguientes partes de la página

Contenido de texto de la página web
Imágenes
Contenido de los Frames
Contenido e imágenes cargadas o generadas mediante JavaScript en sitios Web 2.0
Capturas de pantalla de 1024×768 píxeles.

Las siguientes partes de las páginas web no se guardan

Flash y el contenido que carga
Vídeo y sonidos
PDF
Las páginas RSS y otras páginas XML no se guardan. La mayoría de ellas no se guardan, o se guardan como páginas en blanco.

La página archivada y todas las imágenes deben ocupar menos de 50 megabytes.

Para cada página archivada se crea un enlace de la forma https://archive.is/XXXXX, donde XXXXX es el identificador único de la página. Además, se puede acceder a cualquier página archivada de la siguiente manera

https://archive.is/2012/http://www.google.es/ es la instantánea más reciente de 2012.
https://archive.is/201201/http://www.google.es/ – la instantánea más reciente de enero de 2012.
https://archive.is/20120101/http://www.google.es/ – la instantánea más reciente del día 1 de enero de 2012.

La fecha puede continuar indicando horas, minutos y segundos:

https://archive.is/2012010103/http://www.google.es/
https://archive.is/201201010313/http://www.google.es/
https://archive.is/20120101031355/http://www.google.es/

Para mejorar la legibilidad, el año, el mes, el día, las horas, los minutos y los segundos pueden separarse con puntos, guiones o dos puntos:

https://archive.is/2012-0828/http://hakin9.org/
https://archive.is/2012.08.28-13:08:20/http://hakin9.org/

También es posible hacer referencia a todas las instantáneas de la URL especificada:

https://archive.is/http://www.google.es/

Todas las páginas de dominio guardadas:

https://archive.is/www.google.es

Todas las páginas guardadas de todos los subdominios

https://archive.is/*.google.es

Para acceder a la última versión de una página del archivo o a la más antigua, se admiten direcciones con el siguiente formato:

https://archive.is/newest/http://reddit.com/
https://archive.is/oldest/http://reddit.com/

Para acceder a una parte específica de una página larga, hay dos opciones:

Añadir un hashtag (#) con una posición de desplazamiento porcentual de la cual el número está entre 0 (parte superior de la página) y 100 (parte inferior de la página). Por ejemplo, https://archive.md/ssIXx#95%
Seleccionar el texto de las páginas y obtener la URL con un hashtag que apunte a esta sección. Por ejemplo, https://archive.md/ssIXx#selection-2161.0-2216.0

Los dominios admiten caracteres nacionales:

https://archive.is/www.maroñas.com.uy
https://archive.is/*.测试

Ten en cuenta que al crear una copia de archivo de la página, la dirección IP de la persona que crea la instantánea de la página se envía al sitio archivado. Esto se hace a través de la cabecera X-Forwarded-For para identificar correctamente tu región y mostrar el contenido pertinente.

¿Qué Sucede si la Página Eliminada no se Guarda en Ninguno de los Archivos?

Los archivos de Internet guardan las páginas sólo si algún usuario ha solicitado esta acción – no tienen funciones de rastreo y no buscan nuevas páginas y enlaces. Por esta razón, es posible que la página que te interesa haya sido eliminada antes de que se guardara en algún archivo de Internet.

No obstante, puedes utilizar los servicios de los motores de búsqueda que buscan activamente nuevos enlaces y guardan rápidamente las nuevas páginas. Para visualizar una página de la caché de Google, hay que introducir en la búsqueda de Google:

cache:URL

Por ejemplo:

cache:https://esgeeks.com/?p=9193

Si introduce una consulta similar en una búsqueda de Google, se abrirá inmediatamente la página de la caché.

Para ver la versión de texto, puedes utilizar el enlace con el formato siguiente: (cambia URL por tu URL/Enlace)

https://webcache.googleusercontent.com/search?q=cache:URL&strip=1&vwsrc=0

Para ver el código fuente de una página web de la caché de Google, utiliza el siguiente formato: (cambia URL por tu URL/Enlace)

http://webcache.googleusercontent.com/search?q=cache:URL&strip=0&vwsrc=1

Cómo Descargar Completamente un Sitio de un Archivo Web

Si quieres recuperar un sitio borrado, Wayback Machine Downloader te ayudará. (Alternativamente, te interesará leer sobre httrack)

El programa descargará la última versión de cada archivo presente en el archivo de Internet de Wayback Machine y la guardará en una carpeta con el formato ./websites/ejemplo.com/. También recreará la estructura de directorios y creará automáticamente las páginas index.html para que el sitio descargado pueda colocarse en el servidor web Apache o Nginx sin ningún cambio.

Para instalar Wayback Machine Downloader en Kali Linux:

gem install wayback_machine_downloader
wayback_machine_downloader --help

Instalar wayback_machine_downloader en Linux

Para instalar Wayback Machine Downloader en BlackArch:

gem install wayback_machine_downloader
sudo mv ~/.gem/ruby/2.6.0/bin/wayback_machine_downloader /usr/local/bin/
wayback_machine_downloader --help

Uso:

wayback_machine_downloader https://ejemplo.com

Opciones:

Optional options:
    -d, --directory PATH             Directory to save the downloaded files into
                                     Default is ./websites/ plus the domain name
    -s, --all-timestamps             Download all snapshots/timestamps for a given website
    -f, --from TIMESTAMP             Only files on or after timestamp supplied (ie. 20060716231334)
    -t, --to TIMESTAMP               Only files on or before timestamp supplied (ie. 20100916231334)
    -e, --exact-url                  Download only the url provied and not the full site
    -o, --only ONLY_FILTER           Restrict downloading to urls that match this filter
                                     (use // notation for the filter to be treated as a regex)
    -x, --exclude EXCLUDE_FILTER     Skip downloading of urls that match this filter
                                     (use // notation for the filter to be treated as a regex)
    -a, --all                        Expand downloading to error files (40x and 50x) and redirections (30x)
    -c, --concurrency NUMBER         Number of multiple files to dowload at a time
                                     Default is one file at a time (ie. 20)
    -p, --maximum-snapshot NUMBER    Maximum snapshot pages to consider (Default is 100)
                                     Count an average of 150,000 snapshots per page
    -l, --list                       Only list file urls in a JSON format with the archived timestamps, won't download anything
    -v, --version                    Display version

Ejemplo de descarga de una copia completa del sitio web suip.biz desde el Internet archive:

wayback_machine_downloader https://suip.biz

Ejemplo de uso de Wayback Machine Downloader

La estructura de los archivos descargados:

Cómo Descargar Todos los Cambios de Página de un Archivo Web

Si no te interesa todo el sitio, sino una página específica, pero necesitas rastrear todos los cambios en ella, entonces utiliza el programa Waybackpack.

Para instalar Waybackpack en Kali Linux:

sudo apt install python3-pip
sudo pip3 install waybackpack

Para instalar Waybackpack en BlackArch:

sudo pacman -S waybackpack

Uso:

waybackpack [-h] [--version] (-d DIR | --list) [--raw] [--root ROOT] [--from-date FROM_DATE] [--to-date TO_DATE] [--user-agent USER_AGENT] [--follow-redirects] [--uniques-only]
                   [--collapse COLLAPSE] [--ignore-errors] [--quiet]
                   url

Opciones:

positional arguments:
  url                   The URL of the resource you want to download.
 
optional arguments:
  -h, --help            show this help message and exit
  --version             show program's version number and exit
  -d DIR, --dir DIR     Directory to save the files. Will create this directory if it doesn't already exist.
  --list                Instead of downloading the files, only print the list of snapshots.
  --raw                 Fetch file in its original state, without any processing by the Wayback Machine or waybackpack.
  --root ROOT           The root URL from which to serve snapshotted resources. Default: 'https://web.archive.org'
  --from-date FROM_DATE
                        Timestamp-string indicating the earliest snapshot to download. Should take the format YYYYMMDDhhss, though you can omit as many of the trailing digits as you like.
                        E.g., '201501' is valid.
  --to-date TO_DATE     Timestamp-string indicating the latest snapshot to download. Should take the format YYYYMMDDhhss, though you can omit as many of the trailing digits as you like.
                        E.g., '201604' is valid.
  --user-agent USER_AGENT
                        The User-Agent header to send along with your requests to the Wayback Machine. If possible, please include the phrase 'waybackpack' and your email address. That
                        way, if you're battering their servers, they know who to contact. Default: 'waybackpack'.
  --follow-redirects    Follow redirects.
  --uniques-only        Download only the first version of duplicate files.
  --collapse COLLAPSE   An archive.org `collapse` parameter. Cf.: https://github.com/internetarchive/wayback/blob/master/wayback-cdx-server/README.md#collapsing
  --ignore-errors       Don't crash on non-HTTP errors e.g., the requests library's ChunkedEncodingError. Instead, log error and continue. Cf.
                        https://github.com/jsvine/waybackpack/issues/19
  --quiet               Don't log progress to stderr.

Por ejemplo, para descargar todas las copias de la página principal del sitio web suip.biz, a partir de la fecha (--to-date 2020), estas páginas deben colocarse en la carpeta (-d /home/esgeeks/pentest), mientras que el programa debe seguir las redirecciones HTTP (--follow-redirects):

waybackpack suip.biz -d ./suip.biz-copy --to-date 2020 --follow-redirects

Estructura del directorio:

tree suip.biz-copy/

Para mostrar una lista de todas las copias disponibles en el Internet Archive (--list) para el sitio especificado (esgeeks.com):

waybackpack esgeeks.com --list

Copias de un sitio web en Internet Archive

Cómo Averiguar Todas las Páginas de un Sitio que están Guardadas en Internet Archive

Para obtener los enlaces que están guardados en Internet Archive, utiliza el programa waybackurls.

Este programa recupera todas las URL del dominio especificado que Wayback Machine conoce. Esto puede utilizarse para mapear rápidamente un sitio.

Cómo instalar waybackurls en Kali Linux o Parrot OS:

Empieza por instalar Go, luego escribe:

go get github.com/tomnomnom/waybackurls

Añade el siguiente código en tu archivo .bashrc:

nano ~/.bashrc
#Añade
export PATH="$PATH:$HOME/go/bin"

Entonces:

waybackurls --help

Puedes trabajar con una lista de dominios obteniéndola de la entrada estándar. En esta lista, cada dominio debe ser escrito en una línea separada.

El programa lee los dominios desde la entrada estándar, por lo tanto, para empezar a recibir las direcciones de página de un dominio, es necesario utilizar un comando como este:

echo DOMINIO| waybackurls

Para obtener todas las URL de muchos sitios como DOMINIOS.txt, es necesario especificar un archivo que enumere todos los dominios en el formato de un dominio por línea:

cat DOMINIOS.txt | waybackurls

Opciones:

Usage of waybackurls:
  -dates
    	show date of fetch in the first column
  -get-versions
    	list URLs for crawled versions of input URL(s)
  -no-subs
    	don't include subdomains of the target domain

Para obtener una lista de todas las páginas que Wayback Machine conoce del dominio suip.biz:

echo suip.biz | waybackurls

Conclusión

Un par de programas más que también funcionan con el Internet archive:

https://github.com/relrelb/wayback-downloader
https://github.com/erlange/wbm-dl

También recomiendo utilizar ArchiveFuzz para encontrar activos de WebArchives y revisar nuestra guía introductoria WayBak Machine para reconocimiento pasivo.

Certificación OSCP de Seguridad Ofensiva: Preparación, Costo, Duración y Más

Cómo Proteger mi Cuenta de Instagram de Hackers: Consejos y Reglas

Cómo Asegurar WordPress y Protegerlo Contra Ataques o Hackeos

Ataques a Impresoras: Los Nuevos Objetivos de los Ciberdelincuentes

¿Qué es Metasploit y Cómo se Usa en Hacking y Ciberseguridad?

Hacker vs Cracker vs Ethical Hacker: Lo que nos Enseñaron en la Escuela

Salida de la Sombra: 6 Comandos Linux poco Conocidos

Cómo Inutilizar Linux (dañar un sistema Linux) y Cómo Protegerte

¿Qué Distribución de Linux es la más Adecuada para Usuarios de Windows?

El Mejor Software para Monitorear Actividad del Sistema Windows

¿Qué Distribución de Linux es la más Adecuada para Usuarios de Windows?

Crear el Comando (Alias) MyIP para Obtener Direcciones IP en Linux y Windows

BrutDroid: Kit de Automatización para Emuladores Android

Enviar un Mensaje de WhatsApp desde la Línea de Comandos (Shell)

apk.sh: Facilita la Ingeniería Inversa de Aplicaciones Android

Hostagram: La Herramienta OSINT para Instagram

Cómo crear una app multiplataforma eficiente: herramientas y técnicas clave

Top 10 Herramientas para el Cifrado de Datos en la Nube

Internet Archive: Cómo Recuperar Información Borrada y Restaurar Sitios

¿Qué Archivos de Internet existen?

Cómo Usar web.archive.org

Changes o Cambios

Summary o Resumen

Site map o Mapa de sitio

Buscar en el Internet Archive

Visualizar la página de una fecha determinada

Cómo Usar archive.md

¿Qué Sucede si la Página Eliminada no se Guarda en Ninguno de los Archivos?

Cómo Descargar Completamente un Sitio de un Archivo Web

Cómo Descargar Todos los Cambios de Página de un Archivo Web

Cómo Averiguar Todas las Páginas de un Sitio que están Guardadas en Internet Archive

Conclusión

Hostagram: La Herramienta OSINT para Instagram

Cómo crear una app multiplataforma eficiente: herramientas y técnicas clave

Vermilion: Herramienta de Post-explotación de Linux para Recopilación y Exfiltración

Fsociety: Conjunto de Herramientas Hacking

Cómo Espiar tu red WiFi con WiFi Pumpkin

Mi Carro Close (×)

Internet Archive: Cómo Recuperar Información Borrada y Restaurar Sitios

¿Qué Archivos de Internet existen?

Cómo Usar web.archive.org

Changes o Cambios

Summary o Resumen

Site map o Mapa de sitio

Buscar en el Internet Archive

Visualizar la página de una fecha determinada

Cómo Usar archive.md

¿Qué Sucede si la Página Eliminada no se Guarda en Ninguno de los Archivos?

Cómo Descargar Completamente un Sitio de un Archivo Web

Cómo Descargar Todos los Cambios de Página de un Archivo Web

Cómo Averiguar Todas las Páginas de un Sitio que están Guardadas en Internet Archive

Conclusión

Mi Carro Close (×)

SUSCRÍBETE