Extraer texto de imágenes con la línea de comandos
Extraer texto de imágenes con la línea de comandos

Cómo extraer texto de imágenes con la línea de comandos

Es bastante fácil leer una imagen y extraer el texto uno mismo. Pero extraer texto de una foto de forma dinámica es un poco más difícil y, por suerte, imgclip ofrece una solución bastante simple.

Esta herramienta de línea de comandos se ejecuta en el terminal para Mac, Windows y Linux. Simplemente toma un argumento para el archivo de imagen junto con el idioma, luego devuelve el texto copiado en tu portapapeles.

1. Instalar imgclip

Puedes instalar toda la biblioteca a través de npm y es una instalación bastante simple. La aplicación tiene solo unos pocos KB de tamaño y viene con un archivo JS que puede buscar en GitHub.

npm install -g imgclip
Instalar imgclip vía npm
Instalar imgclip vía npm

Imgclip usa la biblioteca Tesseract.js para automatizar el procesamiento de imágenes y extraer texto a través de OCR (ver Capture2Text: El Mejor Software de OCR para Windows). Es una de las bibliotecas de OCR más poderosas hasta la fecha, y es completamente de código abierto al igual que imgclip.

Creo que estoy muy impresionado con la calidad y la velocidad de esta herramienta. Realmente funciona para extraer texto preciso y es una de las herramientas más simples de usar.

2. Extraer texto de imágenes en Windows, Linux y Mac

El comando imgclip se debe ejecutar directamente en el terminal, seguido de la ruta relativa a la imagen. También puedes agregar cuatro opciones al final para personalizar la salida.

imgclip /RUTA/IMAGEN [opciones]
  • -h, --help: información de uso de salidas.
  • -V, --version: genera el número de versión.
  • -l, --lang: genera el idioma del texto en la imagen.
  • -p, --print: imprime el texto en la imagen (en lugar de copiar al portapapeles).

A partir de este escrito, Tesseract admite 65 idiomas con muchos más en camino. El código que agregues a la etiqueta --lang debe ser el código que se use en esos archivos Tesseract.

Por ejemplo, -l spa buscará texto en español en la imagen, mientras -l jpn buscará texto en japonés e incluso puede ejecutar -l jpn_vert para buscar texto en japonés orientado verticalmente.

Ya que imgclip depende en gran medida de Tesseract, básicamente tiene a su disposición el poder de toda la biblioteca.

Para ver imgclip en acción, echa un vistazo a este breve video creado como una demostración de imgclip.

Pero EsGeeks tiene sus propios ejemplos, así que veamos algunos trucos. Intentaré algunas imagen que tengo en mi perfil de Instagram:

imgclip /RUTA/IMAGEN --lan spa
Extraer texto de imagen con imgclip
Extraer texto de imagen con imgclip

Un ejemplo más. Esta vez con texto puramente español:

View this post on Instagram

Oh sorry 😓

A post shared by ESGEEKS (@esgeeks) on

Extraer texto de imagen en español spa
Extraer texto de imagen en español spa

¿Te ha gustado este artículo? Sigue este blog en su fanpage de FacebookTwitterInstagram y/o YouTube para que no te pierdas del mejor contenido informático y hacking!

Mi Carro Close (×)

Tu carrito está vacío
Ver tienda