Skip to content

Archives

  • 2022 január
  • 2021 december
  • 2021 november
  • 2021 október
  • 2021 szeptember

Categories

  • Nincs kategória
Trend RepositoryArticles and guides
Articles

How to Use Tesseract on Windows

On január 14, 2022 by admin

A Tesseract egy optikai karakterfelismerő szoftver, amelyet a Google fejlesztett ki. Ez egy nyílt forráskódú OCR eszköz. A tesseractnak több verziója is létezik, de mi a 4.0-s verziót fogjuk használni.

A 4-es verzióban a Tesseract egy LSTM (Long Short Term Memory) alapú felismerőmotort implementált. Az LSTM egyfajta rekurrens neurális hálózat (RNN). Az LSTM-alapú felismerés sokkal hatékonyabban működik, mint a régi (CNN-alapú) felismerési eljárások.

A tesseractnak köszönhetően képesek leszünk a képeink tartalmát szöveges fájlként elmenteni.

  • Telepítés
  • Kódolás
  • A könyvtárak importálása
  • A kép DPI-értékének beállítása
  • Mi néhány technika alkalmazása a kép tisztábbá tételéhez
  • Tesseract futtatása
  • Kimenet mentése

Telepítés

Az isntelepítés az operációs rendszertől függ. Most végigmegyünk az ablakokon. Először is töltsük le és telepítsük a tesseractot ezen a linken keresztül. (Letölti az exe fájlt.) Az exe fájlt egyszerűen telepítjük.

Ezután hozzá kell adnunk egy PATH-ot a windows rendszerváltozókhoz. Tulajdonképpen ez egy egyszerű lépés. Először is megkeressük és bemásoljuk a tesseract telepítés gyökérmappáját. Ennek így kell lennie :

C:\Program Files\Tesseract-OCR

Azután a windows keresősávjában Advanced System Settings

Advanced system settings > Advanced > Environment variables > PATH > New

Elhelyezzük a másolt forrás útvonalat és elmentjük ezt a konfigurációt. Ezt a lépést követően a konfigurációk alkalmazásához újra kell indítani a számítógépet.

A tesseract telepítése befejeződött. A telepítést a parancssorból is megerősítheti. Ha a parancssoron futtatjuk a tesseract parancsot, a programnak információkat kell adnia a programról.

Most továbbléphetünk a python részhez. Ahhoz, hogy a tesseractot pythonon használhassuk, le kell töltenünk a pytesseract könyvtárat. Ezt a könyvtárat pip segítségével tölthetjük le a használt környezetünkbe.

pip install pytesseract

Most a tesseract készen áll a használatra!!!

Kódolás

A tesseract használata nagyon egyszerű. A nehéz rész a beállítások optimalizálása.
Mert ha sikeres ocr-t akarsz készíteni, akkor óvatosnak kell lenned a képfeldolgozási lépésben és az ocr beállításoknál.

Legyen az OCR alkalmazása a nyugtára.

A könyvtárak importálása

import pytesseract
from PIL import Image
import cv2
import numpy as np

A kép DPI-értékének beállítása

A Dots per inch (DPI vagy dpi) a videó vagy képolvasó pontsűrűségének mértékegysége. A DPI érték fontos dolog az OCR futtatásához. Mert ha a DPI érték 300-nál alacsonyabb, az csökkentheti az OCR sikerét.

file_path= 'receipt.jpg'
im = Image.open(file_path)
im.save('ocr.png', dpi=(300, 300))

Mi néhány technika alkalmazása a kép tisztábbá tételéhez

Először is x2-vel méretezzük a képünket. Ha a karakterek kicsik, akkor a felismeréshez méreteznünk kell a képet. Ezután egy egyszerű küszöbtechnikát alkalmazunk. Ez a bináris küszöbérték. Először a 127-es értékkel kell próbálkozni, majd különböző változókat lehet kipróbálni. A küszöbérték akkor változtatja a képpontot feketére, ha a képpont értéke meghaladja a küszöbértéket. Ha a képet szürkeárnyalatossá tesszük, akkor fekete-fehér képet kapunk.

Vannak különböző küszöbtechnikák. A forrás weboldalát ezen a linken megnézheti.

Tesseract futtatása

Most futtathatjuk a tesseractot. Van egy image_to_string() függvénye. Kimenetként egy karakterláncot ad nekünk.

text = pytesseract.image_to_string(treshold)

Kimenet mentése

A kimenetet a következő kóddal menthetjük el.

with open("Output.txt", "w",5 ,"utf-8") as text_file:
text_file.write(text)

Az OCR kimenete a következő:

Az eredmény nagyon sikeres. Ha nagyobb sikerre vágyunk, különböző műveleteket alkalmazhatunk a képen.

Vélemény, hozzászólás? Kilépés a válaszból

Az e-mail-címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük

Archívum

  • 2022 január
  • 2021 december
  • 2021 november
  • 2021 október
  • 2021 szeptember

Meta

  • Bejelentkezés
  • Bejegyzések hírcsatorna
  • Hozzászólások hírcsatorna
  • WordPress Magyarország
  • DeutschDeutsch
  • NederlandsNederlands
  • SvenskaSvenska
  • DanskDansk
  • EspañolEspañol
  • FrançaisFrançais
  • PortuguêsPortuguês
  • ItalianoItaliano
  • RomânăRomână
  • PolskiPolski
  • ČeštinaČeština
  • MagyarMagyar
  • SuomiSuomi
  • 日本語日本語

Copyright Trend Repository 2022 | Theme by ThemeinProgress | Proudly powered by WordPress