Crawler y Scraper Qué Son y Cómo Funcionan
Crawler y Scraper Qué Son y Cómo Funcionan

Crawler y Scraper: Diferencias, Qué Son y Cómo Funcionan

Hoy en día, navegar por la web es una operación bastante sencilla y al alcance de todos, pero ¿alguna vez te has preguntado de dónde provienen los resultados de búsqueda que ves en la pantalla?

Ya sea una búsqueda en Google o comparar precios de vuelos y hoteles, los resultados son el resultado de la acción de bots automatizados, es decir, algoritmos que exploran la web en busca de información. Sin embargo, hay una diferencia sustancial entre las dos técnicas: en el primer caso, se trata de un crawler, mientras que en el segundo es un scraper. Pero, ¿qué es lo que los diferencia? ¿Y en cuál de las dos técnicas entran en juego factores de análisis que conducen al hacking?

En este artículo intentaremos aclarar el tema.

¿Qué es un Crawler?

Ilustración de crawler o bots web
Ilustración de crawler o bots web

El web crawler spider (a veces llamado simplemente spider, crawler, rastreador web, indexador web), como se mencionó anteriormente, es un bot de Internet que escanea periódicamente la web con el objetivo de crear un mapa de la misma. Estos bots son llamados “spiders” o “arañas” en español, porque se mueven a lo largo de la red global de la web, al igual que arañas reales.

El crawling es el proceso que permite a los motores de búsqueda crear un índice de diferentes recursos y contenidos en la red, clasificándolos por tipología. De esta manera, pueden ser presentados de manera relevante para las consultas (palabras clave) que utilizan los usuarios.

¿Cómo Funciona un Crawler?

Para encontrar toda la información relevante que ofrece Internet, hay tres caminos principales que puede seguir un crawler:

  1. Buscar enlaces hipertextuales.
  2. Escanear el sitemap.
  3. Envío manual.

Buscar enlaces hipertextuales

La primera forma de indexación ocurre cuando el bot crawler sigue enlaces hipertextuales desde una serie de páginas web conocidas que enlazan a otras páginas.

Estos son los llamados “seeds” (semillas), que son una lista de URL de sitios web que el programa debe visitar de manera sistemática. Los URL de esta lista, llamada Crawl Frontier (frontera de rastreo), se visitan varias veces para registrar posibles cambios o actualizaciones. Esto es útil, por ejemplo, para distinguir una página que se actualiza diariamente de una que permanece inalterada. La primera será escaneada con más frecuencia y, por lo tanto, tendrá un mejor ranking en la página de búsqueda.

Escaneo del sitemap

Otra forma de reconocer nuevas páginas web es escanear los sitemaps, que es una lista de URL de un sitio creada con el propósito de proporcionar a los bots una lista de páginas escaneables.

Un sitemap XML es un archivo que proporciona información sobre páginas, videos y otros archivos importantes en el sitio, así como sobre las correlaciones entre los diversos elementos. Los motores de búsqueda como Google leen este archivo a través de los crawlers para realizar un escaneo más eficiente.

Envío manual

Una tercera posibilidad es el envío manual de páginas al motor de búsqueda (por ejemplo, a través de Google Search Console). Se utiliza esta práctica cuando se publican nuevos contenidos o se actualizan y se desea reducir el tiempo necesario para que el motor de búsqueda note la actualización.

Crawler y Privacidad

Crawler y la privacidad
Crawler y la privacidad

Como hemos visto, los crawlers son fundamentales en SEO y marketing cuando se trata de navegar por partes de sitios web que intencionalmente hacen accesibles ciertas informaciones.

Pero, ¿qué sucede con todos esos otros datos protegidos por la privacidad que deberían permanecer reservados?

Un estudio de Barracuda Networks destaca que aproximadamente el 40% de todo el tráfico en Internet está compuesto por bots maliciosos que buscan obtener información confidencial.

Los crawlers, en este escenario, no son una excepción.

No sorprende, entonces, que se hayan implementado medidas de seguridad para regular una posible intrusión excesiva del bot durante el proceso de construcción de enlaces.

Específicamente, si no deseas que una página sea analizada por los spiders y se indexe en los motores de búsqueda, puedes utilizar un archivo especial llamado “robots.txt” que se coloca en el directorio del sitio web. Esto indicará al spider cómo comportarse al analizar el sitio web, deshabilitando enlaces que el bot no debe seguir mediante comandos como “nofollow” o “disallow“.

Desafortunadamente, los spiders de los motores de búsqueda no tienen la obligación real de ignorar los recursos indicados en el archivo “robots.txt“; estos son simplemente sugerencias proporcionadas por el desarrollador.

Es crucial señalar que el proceso de crawling, a pesar de lo que se pueda pensar intuitivamente, no es indiscriminado o “a ciegas”, todo lo contrario.

En este sentido, es importante saber que los crawlers están programados según instrucciones, también llamadas políticas, que abarcan

  • qué páginas visitar y descargar (política de selección),
  • con qué frecuencia analizar la misma página (política de re-visita), en caso de utilizar diferentes sistemas de spiders para coordinar (política de paralelización),
  • o cómo minimizar el impacto de su actividad de escaneo en los sitios analizados (política de cortesía).

Web Scraping: Qué es y Por qué es Diferente del Crawling

Scraping web como ilustración
Scraping web como ilustración

Hemos visto cómo los crawlers son una herramienta indispensable, pero problemática cuando navegan por páginas que contienen datos confidenciales. Te darás cuenta cuando empieces a utilizar Google Dork.

Sin embargo, hay una técnica aún más invasiva: el web scraping.

Aunque los dos tipos de bots a menudo se confunden, hay una diferencia sustancial:

  • los crawlers navegan por la web para catalogar información de manera generalizada,
  • los scrapers están programados para extraer contenidos de páginas específicas.

En resumen, mientras que los crawlers también utilizan técnicas de scraping para analizar contenidos funcionalmente para su indexación, los scrapers almacenan los datos extraídos en bases de datos externas. No es casualidad que el web scraping también se conozca como web harvesting o extracción de datos web.

Al igual que con los crawlers, los scrapers tienen diferentes modos de acción:

  • scraping manual, que extrae individualmente información y la almacena,
  • scraping automático, un algoritmo real de consulta y extracción de datos.

Aunque no es una técnica ilegal per se, el scraping conlleva riesgos para la ciberseguridad del propio portal.

Web Scraping y Riesgos para la Ciberseguridad

Como se ilustró anteriormente, el web scraping es una técnica similar al crawling, pero con la intención precisa de extraer información de portales web específicos.

Un ámbito de aplicación bien conocido hoy en día es su uso en portales dedicados a la comparación de precios de vuelos, hoteles u otros servicios.

En este caso, nos enfrentamos a un enfoque perfectamente legal: se han extraído de diversos sitios solo informaciones libremente accesibles a terceros.

Sin embargo, esto no quita que, incluso en este caso, el scraping pueda dañar una actividad al perjudicar su clasificación en los resultados de búsqueda.

¿Cuándo el web scraping asume connotaciones que violan abiertamente la ley?

La respuesta es bastante simple:

  • cuando se violan abiertamente los derechos de autor de un sitio web,
  • cuando se someten a scraping páginas relacionadas con el inicio de sesión de usuario,
  • o cuando se eluden las medidas destinadas a evitar la actividad de scraping (ver robots.txt).

Recientemente, el Tribunal de Justicia de la Unión Europea y el Garante de Privacidad (AGICOM) también se han pronunciado al respecto.

En una sentencia, se estableció que si un sitio web, en sus condiciones de uso, prohíbe explícitamente que los crawlers o scrapers analicen su contenido, cualquier persona que actúe sin respetar esas cláusulas podría:

  • ser demandada,
  • incurrir en sanciones significativas,
  • ser obligada a abstenerse de perpetuar en el futuro la conducta en cuestión.

No es raro que, mediante bases de datos de correos electrónicos recopiladas ilegalmente mediante web scraping, se hayan difundido mensajes de phishing.

Por cierto, aquí tienes 5 técnicas anti-scraping que puedes enfrentar si eres un pentester.

Conclusiones

Como hemos visto, los crawlers y scrapers son fundamentales para la indexación y extracción de contenidos de sitios web.

Desafortunadamente, incluso detrás de estas actividades aparentemente inofensivas se esconden riesgos para la privacidad y la seguridad informática de los usuarios.

Todo se reduce a lograr un equilibrio adecuado entre la necesidad de ser visibles en los motores de búsqueda y la protección de los datos personales.

My Cart Close (×)

Tu carrito está vacío
Ver tienda