Articles

Cum se utilizează Tesseract pe Windows

On ianuarie 14, 2022 by admin

Tesseract este un software de recunoaștere optică a caracterelor, dezvoltat de Google. Este un instrument OCR cu sursă deschisă. Există mai multe versiuni ale lui Tesseract, dar noi vom folosi versiunea 4.0.

În versiunea 4, Tesseract a implementat un motor de recunoaștere bazat pe memorie pe termen scurt (LSTM). LSTM este un fel de rețea neuronală recurentă (RNN). Recunoașterea bazată pe LSTM funcționează mult mai eficient decât vechile procese de recunoaștere (bazate pe CNN).

Grație lui Tesseract, vom putea salva conținutul imaginilor noastre ca fișiere text.

Instalare

Instalarea depinde de sistemul dumneavoastră de operare. Acum vom trece prin ferestre. În primul rând, să descărcăm și să instalăm tesseract thorugh acest link. (Se descarcă un fișier exe.) Instalăm fișierul exe cu ușurință.

După aceea ar trebui să adăugăm un PATH la variabilele de sistem Windows. De fapt este un pas ușor. În primul rând găsim și copiem folderul rădăcină al instalației tesseract. Acesta va trebui să fie așa :

C:\Program Files\Tesseract-OCR

Și apoi în bara de căutare din Windows Advanced System Settings

Advanced system settings > Advanced > Environment variables > PATH > New

Împrăștiem calea sursă pe care am copiat-o și salvăm aceste configurații. După acest pas, calculatorul trebuie repornit pentru a aplica configurațiile.

Instalarea tesseract s-a încheiat. Puteți confirma instalarea din linia de comandă. Când executăm comanda tesseract în linia de comandă, aceasta ar trebui să ne ofere informații despre program.

Acum putem trece la partea de python. Pentru a utiliza tesseract pe python, ar trebui să descărcăm biblioteca pytesseract. Această bibliotecă poate fi descărcată prin pip în mediul pe care îl folosiți.

pip install pytesseract

Acum tesseract este gata de utilizare!!!

Codare

Este foarte simplu să folosești tesseract. Partea dificilă este optimizarea setărilor.
Pentru că dacă doriți să faceți un OCR de succes, trebuie să fiți atenți la etapa de procesare a imaginii și la setările OCR.

Să aplicăm OCR la chitanță.

Archives

Categories

Cum se utilizează Tesseract pe Windows

Instalare

Codare

Importul bibliotecilor

Setarea valorii DPI a imaginii

Aplicarea unor tehnici pentru a face imaginea mai curată

Executarea Tesseract

Salvarea ieșirii

Lasă un răspuns Anulează răspunsul

Arhive

Meta