WayBak Machine o Internet Archive para Reconocimiento Pasivo
WayBak Machine o Internet Archive para Reconocimiento Pasivo

WayBak Machine para Reconocimiento Pasivo: Visita Sitios Web Antiguos

¿Te gustaría saber cómo era un sitio web hace tiempo?, esto se puede hacer con WayBack Machine (también conocido como Internet Archive, o archive.org), una herramienta muy útil que guarda copias de sitios web.

Aprende con EsGeeks

Es un sitio web que contiene un archivo de miles de millones de sitios web que han sido eliminados o que ya no están disponibles para acceder. Fue fundada por Brewster Kahle el 20 de agosto de 1996 con la ayuda de Alexa Internet, un sitio web con fines de lucro que proporciona información sobre sitios web, datos de tráfico de Internet y tecnologías relacionadas.

Reconocimiento Activo

Para llevar a cabo una Auditoría de Seguridad de la Información o Pentesting (Hacking Ético) a empresas, se suelen hacer distintas pruebas dependiendo de las fases que esta lleve, tales como: reconocimiento, análisis de vulnerabilidades, explotación, post-explotación y borrado de huellas digitales. En este caso hablaremos del Reconocimiento.

Hay dos tipos de reconocimiento, el Pasivo y el Activo, pero, ¿Qué es el Reconocimiento en una Auditoría de Seguridad o Hacking Ético?

El reconocimiento es la primera fase de un Pentesting, en esta primera etapa de hacking ético consiste en averiguar toda la información posible del objetivo, organización, empresa, etc., es decir que se levantara la información necesaria para poder seguir con la siguiente etapa, esto lo convierte en un paso muy importante y determinante. Hablaremos un poco de el reconocimiento Activo para después continuar con el tipo Pasivo.

El reconocimiento Activo nos puede dar información más confiable como puertos, servicios, sistemas operativos etc. Pero esto conlleva una desventaja, la cual es que si escaneas algún sistema sin permiso puedes tener problemas legales.

¿Qué es el reconocimiento pasivo?

El Reconocimiento Pasivo se encarga de recolectar información sin interactuar directamente con los sistemas utilizando fuentes externas como Google, Bing, Shodan, etc. A este tipo de reconocimiento se le conoce como OSINT: Open Source Network Intelligence por sus siglas en inglés, que se traduciría al español como Inteligencia de Red de Código Abierto.

Tenemos algunas ventajas y desventajas de usar este medio, primero las ventajas es que se obtiene información más rápido sin el riesgo a ser detectado por parte de las empresas; la desventaja es que la información no puede ser muy confiable, pero aun así la información que se obtiene es de mucho valor para la prueba de penetración.

WayBak Machine ¿Qué es?

Wayback Machine es un servicio y una base de datos que contiene copias de una gran cantidad de páginas o sitios de Internet. Si por alguna razón algún sitio no está disponible momentáneamente o ha sido borrado del servidor de origen, es posible consultar una réplica vía “Wayback Machine“. Como consecuencia de este proyecto, también se puede consultar la historia o modificaciones de las páginas a través del tiempo.

Qué es WayBak Machine
Qué es WayBak Machine

¿Cómo funciona?

El servicio Wayback Machine funciona de una manera simple: basta teclear la dirección (URL) de una página web para ver cuál es la última copia que hay guardada en el archivo.

Si queremos ver cómo era hace un tiempo una página en cuestión, entonces Wayback machine nos pedirá en qué fecha y año queremos visitar la página.

Lo que hace este sitio para almacenar todo el contenido de la página web es muy simple, pero ingenioso: almacena solo el contenido html del código fuente y no guarda las imágenes sino solo el código; por eso, cuando un servidor de imágenes elimina alguna imagen del sitio web original, esta no es reproducida, sino que se marca como un error 404. En 2012 contenía 10 PetaBytes de información y crecía en torno a 20 TeraBytes por mes. En octubre de 2019 su almacenamiento sobrepasó los 20 petabytes. En diciembre de 2020 su almacenamiento superó los 70 petabytes.

Ejemplo:

Buscaremos facebook.com

Búsqueda en Wayback Machine
Búsqueda en Wayback Machine

Existe un calendario en la parte superior de la pantalla, que permite ver gráficamente las capturas a lo largo del tiempo. La longitud de las barras del gráfico indica en qué meses se hicieron más copias.

Calendario de fechas disponibles
Calendario de fechas disponibles

También hay un calendario en meses y días que muestra cuando ha tenido más cambios, así podemos comprobar los cambios con mayor especificación si es que buscamos en especifico una fecha ya sea en días o años.

Calendario por cambios
Calendario por cambios

Se pueden observar distintos colores en cada día, estos significan los cambios guardados en WayBack Machine. Colocando el cursor encima del día que queramos o haciendo clic muestra información a simple vista como mes, día y el año que esta seleccionado también los llamados snapshots así mismo una lista de horarios en los que se guardo el contenido de la página.

Se puede dar clic a cualquiera de estos datos horarios y ver el contenido guardado, en ocaciones puede que no nos arroje una respuesta gráfica y nos marque algún error por no tener la información en los servidores de WayBack Machine.

  • Color naranja: son los días en los que se han guardado más cambios
  • Color azul: días con pocos cambios
  • Color verde: menos cambios guardados

Aunque estos pueden variar dependiendo de la actividad por día.

Significado de colores WayBack Machine
Significado de colores

Daremos clic en el día u hora que estemos interesados así podremos observar el contenido de la página hace algunos años. Podemos observar como se veía la página para iniciar sesión o registrarse por primera vez en la res social, esto en el año 2010 específicamente el 26 de febrero.

Cómo se veía Facebook en 2010
Cómo se veía Facebook en 2010

Actualmente se ve de esta manera la página de facebook y podemos ver la fecha en la que se esta tomando el ultimo cambio guardado 19 de marzo del 2021.

Facebook en WayBak Machine
Facebook en WayBak Machine

Sin embargo, WayBack Machine está lejos de ser una copia completa de internet pues varios sitios evitan su indexación y grabación de información, como por ejemplo usando el archivo robots.txt con: (anteriormente)

User-agent: ia_archiver
Disallow: /

Irónicamente, todavía puedes ver la página de exclusión desaparecida en Wayback Machine, aquí:

https://web.archive.org/web/20150322111536/http://archive.org/about/exclude.php

Este método ya no funciona, archive.org cambió las cosas silenciosamente (para la exclusión de rastreo, debes enviar un correo a info@archive.org) y el contenido de todos comenzó nuevamente a ser raspado/scrapeado (leer la razón aquí).

Conclusión

WayBack Machine es una herramienta bastante útil a la hora de hacer reconocimiento o buscar información de algún sitio que por ‘X’ motivo se haya dado de baja de internet, con esto podemos analizar con qué tipo de tecnologías estaban hechos los sitios, mala programación en el desarrollo, configuración no segura y si alguna vez sufrió un ciberataque o el fin que se quiera obtener. Todo esto, sin el riesgo de ser detectados por los sistemas de la empresa y nos metamos en problemas legales.

Hablando de snapshots:

Finalmente, este es un gran lugar para las personas que desean hacer una copia de seguridad de algo que les gusta. Pero espera … ¿Por qué es gratis? Esto se debe a que Archive.org utiliza el poder de los voluntarios. Los voluntarios están ahorrando todo lo que pueden. Están buscando algo nuevo todos los días y lo publican en Archive.org. ¿Harás una instantánea de EsGeeks? :’)

Mi Carro Close (×)

Tu carrito está vacío
Ver tienda