How to Use Tesseract on Windows
On január 14, 2022 by adminA Tesseract egy optikai karakterfelismerő szoftver, amelyet a Google fejlesztett ki. Ez egy nyílt forráskódú OCR eszköz. A tesseractnak több verziója is létezik, de mi a 4.0-s verziót fogjuk használni.
A 4-es verzióban a Tesseract egy LSTM (Long Short Term Memory) alapú felismerőmotort implementált. Az LSTM egyfajta rekurrens neurális hálózat (RNN). Az LSTM-alapú felismerés sokkal hatékonyabban működik, mint a régi (CNN-alapú) felismerési eljárások.
A tesseractnak köszönhetően képesek leszünk a képeink tartalmát szöveges fájlként elmenteni.
Telepítés
Az isntelepítés az operációs rendszertől függ. Most végigmegyünk az ablakokon. Először is töltsük le és telepítsük a tesseractot ezen a linken keresztül. (Letölti az exe fájlt.) Az exe fájlt egyszerűen telepítjük.
Ezután hozzá kell adnunk egy PATH-ot a windows rendszerváltozókhoz. Tulajdonképpen ez egy egyszerű lépés. Először is megkeressük és bemásoljuk a tesseract telepítés gyökérmappáját. Ennek így kell lennie :
C:\Program Files\Tesseract-OCR
Azután a windows keresősávjában Advanced System Settings
Advanced system settings > Advanced > Environment variables > PATH > New
Elhelyezzük a másolt forrás útvonalat és elmentjük ezt a konfigurációt. Ezt a lépést követően a konfigurációk alkalmazásához újra kell indítani a számítógépet.
A tesseract telepítése befejeződött. A telepítést a parancssorból is megerősítheti. Ha a parancssoron futtatjuk a tesseract parancsot, a programnak információkat kell adnia a programról.
Most továbbléphetünk a python részhez. Ahhoz, hogy a tesseractot pythonon használhassuk, le kell töltenünk a pytesseract könyvtárat. Ezt a könyvtárat pip segítségével tölthetjük le a használt környezetünkbe.
pip install pytesseract
Most a tesseract készen áll a használatra!!!
Kódolás
A tesseract használata nagyon egyszerű. A nehéz rész a beállítások optimalizálása.
Mert ha sikeres ocr-t akarsz készíteni, akkor óvatosnak kell lenned a képfeldolgozási lépésben és az ocr beállításoknál.
Legyen az OCR alkalmazása a nyugtára.
A könyvtárak importálása
import pytesseract
from PIL import Image
import cv2
import numpy as np
A kép DPI-értékének beállítása
A Dots per inch (DPI vagy dpi) a videó vagy képolvasó pontsűrűségének mértékegysége. A DPI érték fontos dolog az OCR futtatásához. Mert ha a DPI érték 300-nál alacsonyabb, az csökkentheti az OCR sikerét.
file_path= 'receipt.jpg'
im = Image.open(file_path)
im.save('ocr.png', dpi=(300, 300))
Mi néhány technika alkalmazása a kép tisztábbá tételéhez
Először is x2-vel méretezzük a képünket. Ha a karakterek kicsik, akkor a felismeréshez méreteznünk kell a képet. Ezután egy egyszerű küszöbtechnikát alkalmazunk. Ez a bináris küszöbérték. Először a 127-es értékkel kell próbálkozni, majd különböző változókat lehet kipróbálni. A küszöbérték akkor változtatja a képpontot feketére, ha a képpont értéke meghaladja a küszöbértéket. Ha a képet szürkeárnyalatossá tesszük, akkor fekete-fehér képet kapunk.
Vannak különböző küszöbtechnikák. A forrás weboldalát ezen a linken megnézheti.
Vélemény, hozzászólás?