Tesseractin käyttö Windowsissa
On 14 tammikuun, 2022 by adminTesseract on Googlen kehittämä optinen merkintunnistusohjelma. Se on avoimen lähdekoodin OCR-työkalu. Tesseractista on useita versioita, mutta me käytämme 4.0-versiota.
Versiossa 4 Tesseractissa on toteutettu LSTM (Long Short Term Memory) -pohjainen tunnistusmoottori. LSTM on eräänlainen Recurrent Neural Network (RNN). LSTM-pohjainen tunnistus toimii paljon tehokkaammin kuin vanhat (CNN-pohjaiset) tunnistusprosessit.
Tesseractin ansiosta pystymme tallentamaan kuviemme sisällön tekstitiedostoiksi.
Asennus
Asennus riippuu käyttöjärjestelmästäsi. Nyt käymme läpi ikkunat. Ensin ladataan ja asennetaan tesseract tämän linkin kautta. (Se lataa exe-tiedoston.) Asetamme exe-tiedoston helposti.
Sen jälkeen meidän pitäisi lisätä PATH Windowsin järjestelmämuuttujiin. Oikeastaan se on helppo vaihe. Ensin etsitään ja kopioidaan tesseract-asennuksen juurikansio. Sen pitäisi olla tällainen :
C:\Program Files\Tesseract-OCR
Ja sitten windowsin hakupalkissa Advanced System Settings
Advanced system settings > Advanced > Environment variables > PATH > New
Taivutamme kopioidun lähdepolun ja tallennamme nämä asetukset. Tämän vaiheen jälkeen tietokone on käynnistettävä uudelleen, jotta konfiguraatiot voidaan ottaa käyttöön.
Tesseractin asennus on valmis. Voit vahvistaa asennuksen komentoriviltä. Kun suoritamme komentorivillä komennon tesseract, sen pitäisi antaa meille tietoja ohjelmasta.
Nyt voimme siirtyä python-osioon. Käyttääksemme tesseractia pythonilla, meidän pitäisi ladata pytesseract-kirjasto. Tämä kirjasto voidaan ladata pipin kautta käyttämääsi ympäristöön.
pip install pytesseract
Nyt tesseract on valmis käytettäväksi!!!
Koodaus
Tesseractin käyttö on todella yksinkertaista. Vaikeinta on asetusten optimointi.
Koska haluat tehdä onnistuneen ocr:n, sinun täytyy olla huolellinen kuvankäsittelyvaiheessa ja ocr-asetuksissa.
Käytetään OCR:ää kuittiin.
Kirjastojen tuonti
import pytesseract
from PIL import Image
import cv2
import numpy as np
Kuvan DPI-arvon asettaminen
Pisteitä tuumaa kohti (DPI tai dpi) on videon tai kuvaskannerin pistetiheyden mitta. DPI-arvo on tärkeä asia OCR:n suorittamisessa. Koska jos DPI-arvo on pienempi kuin 300, se voi heikentää OCR:n onnistumista.
file_path= 'receipt.jpg'
im = Image.open(file_path)
im.save('ocr.png', dpi=(300, 300))
Joitakin tekniikoita kuvan siistimiseen
Ensin skaalataan kuva x2:lla. Jos merkit ovat pieniä, meidän on skaalattava kuva, jotta voimme tunnistaa sen. Sen jälkeen sovellamme yksinkertaista kynnystekniikkaa. Sen binäärinen kynnysarvo. Ensin kannattaa kokeilla arvolla 127, jonka jälkeen voidaan kokeilla eri muuttujia. Kynnysarvo muuttaa pikselin mustaksi, jos pikselin arvo ylittää kynnysarvon. Jos teemme kuvasta harmaasävykuvan, saamme mustavalkoisen kuvan.
On olemassa erilaisia kynnystekniikoita. Voit tarkistaa lähdesivuston tästä linkistä.
Vastaa