Articles

Cómo usar Tesseract en Windows

On enero 14, 2022 by admin

Tesseract es un software de reconocimiento óptico de caracteres desarrollado por Google. Es una herramienta de OCR de código abierto. Hay muchas versiones de tesseract pero nosotros utilizaremos la versión 4.0.

En la versión 4, Tesseract ha implementado un motor de reconocimiento basado en la memoria a largo plazo (LSTM). La LSTM es un tipo de red neuronal recurrente (RNN). El reconocimiento basado en LSTM funciona de forma mucho más eficaz que los antiguos procesos de reconocimiento (basados en CNN).

Gracias a tesseract, podremos guardar el contenido de nuestras imágenes como archivos de texto.

Instalación

La instalación depende de tu sistema operativo. Ahora vamos a ir a través de las ventanas. Primero, vamos a descargar e instalar tesseract a través de este enlace. (Se descarga un archivo exe.) Configuramos el archivo exe fácilmente.

Después debemos añadir un PATH a las variables del sistema de windows. En realidad es un paso fácil. Primero buscamos y copiamos la carpeta raíz de la instalación de tesseract. Deberá ser así :

C:\Program Files\Tesseract-OCR

Y luego en la barra de búsqueda de windows Configuración avanzada del sistema

Configuración avanzada del sistema > Avanzado > Variables de entorno > PATH > Nuevo

Pegamos la ruta de origen que hemos copiado y guardamos esta configuración. Después de este paso hay que reiniciar el ordenador para aplicar las configuraciones.

La instalación de tesseract se ha completado. Se puede confirmar la instalación desde la línea de comandos. Cuando ejecutamos el comando tesseract en la línea de comandos, debería darnos información sobre el programa.

Archives

Categories

Cómo usar Tesseract en Windows

Instalación

Codificación

Importar las bibliotecas

Configurar el valor DPI de la imagen

Aplicando algunas técnicas para hacer la imagen más limpia

Ejecución de Tesseract

Guardando la salida

Deja una respuesta Cancelar la respuesta

Archivos

Meta