¿Te gustaría saber cómo era un sitio web hace tiempo?, esto se puede hacer con WayBack Machine (también conocido como Internet Archive, o archive.org), una herramienta muy útil que guarda copias de sitios web.
Reconocimiento Activo
Para llevar a cabo una Auditoría de Seguridad de la Información o Pentesting (Hacking Ético) a empresas, se suelen hacer distintas pruebas dependiendo de las fases que esta lleve, tales como: reconocimiento, análisis de vulnerabilidades, explotación, post-explotación y borrado de huellas digitales. En este caso hablaremos del Reconocimiento.
Hay dos tipos de reconocimiento, el Pasivo y el Activo, pero, ¿Qué es el Reconocimiento en una Auditoría de Seguridad o Hacking Ético?
El reconocimiento es la primera fase de un Pentesting, en esta primera etapa de hacking ético consiste en averiguar toda la información posible del objetivo, organización, empresa, etc., es decir que se levantara la información necesaria para poder seguir con la siguiente etapa, esto lo convierte en un paso muy importante y determinante. Hablaremos un poco de el reconocimiento Activo para después continuar con el tipo Pasivo.
El reconocimiento Activo nos puede dar información más confiable como puertos, servicios, sistemas operativos etc. Pero esto conlleva una desventaja, la cual es que si escaneas algún sistema sin permiso puedes tener problemas legales.
¿Qué es el reconocimiento pasivo?
El Reconocimiento Pasivo se encarga de recolectar información sin interactuar directamente con los sistemas utilizando fuentes externas como Google, Bing, Shodan, etc. A este tipo de reconocimiento se le conoce como OSINT: Open Source Network Intelligence por sus siglas en inglés, que se traduciría al español como Inteligencia de Red de Código Abierto.
Tenemos algunas ventajas y desventajas de usar este medio, primero las ventajas es que se obtiene información más rápido sin el riesgo a ser detectado por parte de las empresas; la desventaja es que la información no puede ser muy confiable, pero aun así la información que se obtiene es de mucho valor para la prueba de penetración.
WayBak Machine ¿Qué es?
Wayback Machine es un servicio y una base de datos que contiene copias de una gran cantidad de páginas o sitios de Internet. Si por alguna razón algún sitio no está disponible momentáneamente o ha sido borrado del servidor de origen, es posible consultar una réplica vía “Wayback Machine“. Como consecuencia de este proyecto, también se puede consultar la historia o modificaciones de las páginas a través del tiempo.
¿Cómo funciona?
El servicio Wayback Machine funciona de una manera simple: basta teclear la dirección (URL) de una página web para ver cuál es la última copia que hay guardada en el archivo.
Si queremos ver cómo era hace un tiempo una página en cuestión, entonces Wayback machine nos pedirá en qué fecha y año queremos visitar la página.
Lo que hace este sitio para almacenar todo el contenido de la página web es muy simple, pero ingenioso: almacena solo el contenido html del código fuente y no guarda las imágenes sino solo el código; por eso, cuando un servidor de imágenes elimina alguna imagen del sitio web original, esta no es reproducida, sino que se marca como un error 404. En 2012 contenía 10 PetaBytes de información y crecía en torno a 20 TeraBytes por mes. En octubre de 2019 su almacenamiento sobrepasó los 20 petabytes. En diciembre de 2020 su almacenamiento superó los 70 petabytes.
Ejemplo:
Buscaremos facebook.com
Existe un calendario en la parte superior de la pantalla, que permite ver gráficamente las capturas a lo largo del tiempo. La longitud de las barras del gráfico indica en qué meses se hicieron más copias.
También hay un calendario en meses y días que muestra cuando ha tenido más cambios, así podemos comprobar los cambios con mayor especificación si es que buscamos en especifico una fecha ya sea en días o años.
Se pueden observar distintos colores en cada día, estos significan los cambios guardados en WayBack Machine. Colocando el cursor encima del día que queramos o haciendo clic muestra información a simple vista como mes, día y el año que esta seleccionado también los llamados snapshots así mismo una lista de horarios en los que se guardo el contenido de la página.
Se puede dar clic a cualquiera de estos datos horarios y ver el contenido guardado, en ocaciones puede que no nos arroje una respuesta gráfica y nos marque algún error por no tener la información en los servidores de WayBack Machine.
- Color naranja: son los días en los que se han guardado más cambios
- Color azul: días con pocos cambios
- Color verde: menos cambios guardados
Aunque estos pueden variar dependiendo de la actividad por día.
Daremos clic en el día u hora que estemos interesados así podremos observar el contenido de la página hace algunos años. Podemos observar como se veía la página para iniciar sesión o registrarse por primera vez en la res social, esto en el año 2010 específicamente el 26 de febrero.
Actualmente se ve de esta manera la página de facebook y podemos ver la fecha en la que se esta tomando el ultimo cambio guardado 19 de marzo del 2021.
Sin embargo, WayBack Machine está lejos de ser una copia completa de internet pues varios sitios evitan su indexación y grabación de información, como por ejemplo usando el archivo robots.txt con: (anteriormente)
User-agent: ia_archiver
Disallow: /
Irónicamente, todavía puedes ver la página de exclusión desaparecida en Wayback Machine, aquí:
https://web.archive.org/web/20150322111536/http://archive.org/about/exclude.php
Este método ya no funciona, archive.org cambió las cosas silenciosamente (para la exclusión de rastreo, debes enviar un correo a info@archive.org) y el contenido de todos comenzó nuevamente a ser raspado/scrapeado (leer la razón aquí).
Conclusión
WayBack Machine es una herramienta bastante útil a la hora de hacer reconocimiento o buscar información de algún sitio que por ‘X’ motivo se haya dado de baja de internet, con esto podemos analizar con qué tipo de tecnologías estaban hechos los sitios, mala programación en el desarrollo, configuración no segura y si alguna vez sufrió un ciberataque o el fin que se quiera obtener. Todo esto, sin el riesgo de ser detectados por los sistemas de la empresa y nos metamos en problemas legales.
Hablando de snapshots:
- Cómo ejecutar Windows 1.01 en el navegador web
- Ya puedes Emular Macintosh gracias a Internet Archive
- 8 Sistemas Operativos clásicos para acceder en el navegador
Finalmente, este es un gran lugar para las personas que desean hacer una copia de seguridad de algo que les gusta. Pero espera … ¿Por qué es gratis? Esto se debe a que Archive.org utiliza el poder de los voluntarios. Los voluntarios están ahorrando todo lo que pueden. Están buscando algo nuevo todos los días y lo publican en Archive.org. ¿Harás una instantánea de EsGeeks? :’)