Articles

How to Use Tesseract on Windows

On január 14, 2022 by admin

A Tesseract egy optikai karakterfelismerő szoftver, amelyet a Google fejlesztett ki. Ez egy nyílt forráskódú OCR eszköz. A tesseractnak több verziója is létezik, de mi a 4.0-s verziót fogjuk használni.

A 4-es verzióban a Tesseract egy LSTM (Long Short Term Memory) alapú felismerőmotort implementált. Az LSTM egyfajta rekurrens neurális hálózat (RNN). Az LSTM-alapú felismerés sokkal hatékonyabban működik, mint a régi (CNN-alapú) felismerési eljárások.

A tesseractnak köszönhetően képesek leszünk a képeink tartalmát szöveges fájlként elmenteni.

Telepítés

Az isntelepítés az operációs rendszertől függ. Most végigmegyünk az ablakokon. Először is töltsük le és telepítsük a tesseractot ezen a linken keresztül. (Letölti az exe fájlt.) Az exe fájlt egyszerűen telepítjük.

Ezután hozzá kell adnunk egy PATH-ot a windows rendszerváltozókhoz. Tulajdonképpen ez egy egyszerű lépés. Először is megkeressük és bemásoljuk a tesseract telepítés gyökérmappáját. Ennek így kell lennie :

C:\Program Files\Tesseract-OCR

Azután a windows keresősávjában Advanced System Settings

Advanced system settings > Advanced > Environment variables > PATH > New

Elhelyezzük a másolt forrás útvonalat és elmentjük ezt a konfigurációt. Ezt a lépést követően a konfigurációk alkalmazásához újra kell indítani a számítógépet.

A tesseract telepítése befejeződött. A telepítést a parancssorból is megerősítheti. Ha a parancssoron futtatjuk a tesseract parancsot, a programnak információkat kell adnia a programról.

Most továbbléphetünk a python részhez. Ahhoz, hogy a tesseractot pythonon használhassuk, le kell töltenünk a pytesseract könyvtárat. Ezt a könyvtárat pip segítségével tölthetjük le a használt környezetünkbe.

pip install pytesseract

Most a tesseract készen áll a használatra!!!

Kódolás

A tesseract használata nagyon egyszerű. A nehéz rész a beállítások optimalizálása.
Mert ha sikeres ocr-t akarsz készíteni, akkor óvatosnak kell lenned a képfeldolgozási lépésben és az ocr beállításoknál.

Legyen az OCR alkalmazása a nyugtára.

A könyvtárak importálása

import pytesseract
from PIL import Image
import cv2
import numpy as np

A kép DPI-értékének beállítása

A Dots per inch (DPI vagy dpi) a videó vagy képolvasó pontsűrűségének mértékegysége. A DPI érték fontos dolog az OCR futtatásához. Mert ha a DPI érték 300-nál alacsonyabb, az csökkentheti az OCR sikerét.

file_path= 'receipt.jpg'
im = Image.open(file_path)
im.save('ocr.png', dpi=(300, 300))

Mi néhány technika alkalmazása a kép tisztábbá tételéhez

Először is x2-vel méretezzük a képünket. Ha a karakterek kicsik, akkor a felismeréshez méreteznünk kell a képet. Ezután egy egyszerű küszöbtechnikát alkalmazunk. Ez a bináris küszöbérték. Először a 127-es értékkel kell próbálkozni, majd különböző változókat lehet kipróbálni. A küszöbérték akkor változtatja a képpontot feketére, ha a képpont értéke meghaladja a küszöbértéket. Ha a képet szürkeárnyalatossá tesszük, akkor fekete-fehér képet kapunk.

Vannak különböző küszöbtechnikák. A forrás weboldalát ezen a linken megnézheti.

Archives

Categories

How to Use Tesseract on Windows

Telepítés

Kódolás

A könyvtárak importálása

A kép DPI-értékének beállítása

Mi néhány technika alkalmazása a kép tisztábbá tételéhez

Tesseract futtatása

Kimenet mentése

Vélemény, hozzászólás? Kilépés a válaszból

Archívum

Meta