7 Herramientas Gratuitas para el Web Scraping
7 Herramientas Gratuitas para el Web Scraping

7 Herramientas Gratuitas para el Web Scraping

El scraping (del inglés to scrape que significa ‘arañar‘, ‘raspar‘, ‘espigar‘) es una técnica informática que consiste en extraer datos de forma automatizada mediante herramientas capaces de escanear recursos web y recopilar información.

El propio Google, a través de sus parsers, utiliza métodos de scraping para analizar sitios web y extraer sus contenidos, que luego utilizará para su propia catalogación.

Concepto de Web Scraping
Concepto de Web Scraping

El método de extracción de datos mediante sistemas de scraping se basa en el análisis del código de un sitio para reconocer estructuras lógicas similares y así poder seleccionar sólo los datos de interés propio.

Pongamos un ejemplo para entenderlo mejor.

Imaginemos que queremos hacer una búsqueda de los mejores libros de seguridad informática. Vamos a Google y buscamos “Mejores libros seguridad informática” y elegimos una web.

Mejores libros de seguridad informática
Mejores libros de seguridad informática

La página web en cuestión tiene dentro una lista de todos las libros de ciberseguridad con información sobre el autor, el precio, etc.

Si quisiera utilizar esta lista, tendría que copiar y pegar la página, a riesgo de llevarme información que no necesito (por ejemplo, formato, imágenes, etc.). Para realizar una extracción limpia de los datos, viene en nuestra ayuda el scraping, que, gracias al reconocimiento de la arquitectura del sitio, nos permite extraer sólo los datos que nos interesan.

La imagen siguiente muestra cómo la página del listado de libros tiene información recurrente:

Ejemplo de scraping con libros
Ejemplo de scraping con libros
Autor: span con clase = blockstyle;

Gracias al scraping, podemos identificar esta información y extraerla de forma automatizada. La identificación de esta información puede hacerse de varias maneras utilizando la selección de datos html o css (por ejemplo, selectores jquery, nodos xml, selectores css, etc.).

El scraping es una técnica que se utiliza desde hace muchos años y con el tiempo las tecnologías para realizar análisis automatizados han cambiado, aunque la lógica de la extracción siempre ha sido la misma. En este artículo, señalo 7 herramientas gratuitas (con la posibilidad de actualizar a una versión premium para algunas) que se pueden utilizar para el scraping.

1. ScraperAPI

ScraperApi es un servicio diseñado para aquellos que realizan actividades de scraping masivo. Ofrece una API que permite gestionar las actividades de rotación de proxy, resolver CAPTCHAs, configurar navegadores sin cabeza (headless), y básicamente todo lo que necesitas para evitar ser bloqueado durante las actividades de scraping.

ScraperApi pone a disposición de sus clientes más de 20 millones de IP en 12 países diferentes, ofreciendo un ancho de banda ilimitado y una garantía de tiempo de actividad del 99,99% con planes de suscripción que van desde los 29 a los 249 dólares.

Sitio web oficial de ScraperAPI
Sitio web oficial de ScraperAPI

Prueba Gratuita

Prueba la API con 5.000 créditos API gratuitos durante 7 días y actualízala si satisface tus necesidades.

2. ScrapingBee

ScrapingBee es una API de Web Scraper que pone al servicio del usuario un navegador sin cabeza capaz de renderizar una página web (verla como la vería un usuario) y extraer información útil para el scraping.

Una vez que la fuente es renderizada, ScrapingBee permite el uso de librerías Js como React, Angulars y Vue.js para crear scripts de extracción de datos.

Para evitar el bloqueo por parte de los sitios que se raspan, ScrapingBee ofrece un servicio de proxies rotativos que permite ejecutar los scripts de forma masiva y sin grandes cantidades de datos.

Sitio web oficial de ScrapingBee
Sitio web oficial de ScrapingBee

Prueba Gratuita

Prueba ScrapingBee con 1000 llamadas gratuitas a la API sin uso de tarjeta de crédito.

3. Octoparse

Octoparse es una potente y eficaz herramienta de scraping para extraer diferentes tipos de datos de fuentes online. Gracias a una interfaz sencilla y visual, es posible configurar la herramienta en pocos pasos y establecer la arquitectura de extracción sin tener que escribir una sola línea de código.

Además de la versión gratuita, Octoparse ofrece una versión premium con proxy con rotación automática de IP, acceso a la API y gestión en la nube de los datos extraídos.

Sitio web oficial de Octoparse
Sitio web oficial de Octoparse

Plan gratuito

Incluye 10,000 registros por exportación, 2 extracciones simultáneas en la Nube y 10 Crawlers.

4. Parse Hub

Parsehub es un software de escritorio disponible para Windows, Mac y Linux con características muy avanzadas que incluyen la posibilidad de explotar diferentes IPs (para evitar bloqueos del servidor), la integración con sistemas de almacenamiento (como dropbox) y el escaneo de sitios creados con tecnologías como Javascript y Ajax (difíciles de escanear por otras herramientas).

En la versión gratuita, Parsehub permite la gestión de 5 proyectos y el scraping de 200 páginas en 40 minutos.

Sitio web oficial de Parse Hub
Sitio web oficial de Parse Hub

Plan gratuito

No se requiere tarjeta de crédito. Puedes obtener 200 páginas de datos en sólo 40 minutos. 5 proyectos públicos.

5. Data-Miner.io

Data Miner es una herramienta de scraping que se integra con Google Chrome y consta de dos componentes, el ejecutor (Data Miner) y un creador de “recetas” (Data Miner Beta).

Con la extensión, se pueden crear recetas de raspado seleccionando visualmente los datos que se van a raspar en la página individual. Una vez creada la receta, se visita el sitio y se lanza la herramienta, que procede a extraer y luego a descargar los recursos.

En la versión gratuita, la herramienta puede extraer hasta 500 páginas al mes.

Sitio web oficial de Data-Miner
Sitio web oficial de Data-Miner

Plan gratuito

El plan gratuito te da 500 páginas/mes. El recuento se restablece mensualmente si no superas el límite de 500 páginas en un mes determinado.

6. Webscraper.io

Web Scraper es una extensión de Google Chrome que se integra con la consola de desarrolladores. Una vez lanzada, la extensión permite crear un mapa del sitio que se desea “raspar”, seleccionando los distintos elementos y ofreciendo una vista previa del resultado.

Una vez terminada la creación del sitemap, basta con lanzar la extracción y la herramienta nos proporciona una tabla con los datos descargados exportable en csv.

Sitio web oficial de Webscraper.io
Sitio web oficial de Webscraper.io

Versión gratuita

Extensión del navegado sólo para uso local. Sitios web dinámicos, Ejecución de JavaScript y Exportación CSV.

7. Google Spreadsheets

Google Spreadsheets es la herramienta de hojas de cálculo de Google (la versión googliana de Excel); la herramienta no fue creada como un sistema de scraping, sino que gracias a la función IMPORTXML permite la importación de varios tipos de datos estructurados, incluyendo XML, HTML, CSV, TSV y feeds RSS XML y ATOM.

En el archivo de la hoja de cálculo hay que introducir la URL de la página que se va a analizar y las consultas xpath que identifican los elementos que se van a escanear.

Una vez ejecutada, la función importa los datos de la página que estamos escaneando al archivo de Google.

Esperamos que este artículo te haya sido útil y que te haya despertado la curiosidad y el interés por las mejores herramientas de web scraping que vale la pena probar.

Mi Carro Close (×)

Tu carrito está vacío
Ver tienda