LinuxHint avaldas juba õpetuse, milles selgitatakse, kuidas installida ja mõista Tesseract'i koolitust.
See õpetus näitab Tesseracti installiprotsessi Debiani / Ubuntu süsteemides, kuid ei laiene koolitusfunktsioonidele, kui te pole selle tarkvaraga kursis, võib mainitud artikli lugemine olla hea sissejuhatus. Siis näitame teile, kuidas töödelda GIF-pilti Tesseractiga, et tekst sellest välja saada.
Tesseract paigaldus:
Käivita:
apt install tesseract-ocr
Nüüd peate installima imagemagick, mis on pildi teisendaja.
Kui see on installitud, saame juba Tesseracti testida. Selle testimiseks leidsin korduskasutuseks litsentseeritud gifi.
Vaatame nüüd, mis juhtub, kui käivitame gif-pildil tesseract:
tesseract 2002NY40.gif 1tulemus
Nüüd tehke ühe tulemuse puhul vähem.txt
vähem 1tulemus.txt
Siin on pilt koos selle tekstiga:
Selles Tesseract'i vaikeseaded on üsna täpsed, tavaliselt on sellise täpsuse saamiseks vaja koolitust. Proovime veel ühte tasuta pilti, mille leidsin Wiki Commonsist, pärast selle allalaadimist:
tesseract Actualizar_GNULinux_Terminal_apt-get.gif 2tulemus
Nüüd kontrollige faili sisu.
vähem 2tulemus.txt
See oli tulemus, kui originaalpildi sisu oli:
Märgituvastuse parandamiseks on meil palju juhiseid ja samme, mida järgisime meie eelmises õpetuses: piiride eemaldamine, müra eemaldamine, suuruse optimeerimine ja lehtede pööramine muude funktsioonide, nagu kärpimine.
Selle õpetuse jaoks kasutame teksti puhastaja, skripti, mille on välja töötanud Fred's ImageMagick Scripts.
Laadige skript alla ja käivitage:
./ textcleaner -g -e stretch -f 25 -o 10 -s 1Actualizar_GNULinux_Terminal_apt-get.gif-test.gif
Märge: anna enne skripti käivitamist käivitamisõigused käivitadeschmod + x tekstipuhastaja”Juurena või koos sudo eesliide.
Kus:
teksti puhastaja: kutsub programmi
-g: Teisendage pilt halltooniks
-e: enache
-f: filtri suurus
-s: sharpamt, tulemusele rakendatava piksli teritamise kogus.
Lisateavet ja näiteid tekstipuhastajaga kasutamise kohta leiate aadressilt http: // www.fmwkontseptsioonid.com / imagemagick / textcleaner / index.php
Nagu näete, puhastas textcleaner taustavärvi, suurendades fondi ja tausta kontrastsust.
Kui käivitame tesseract'i, on tulemus tõenäoliselt erinev:
tesseract test.gif-testi väljundvähem testimisvõimalusi
Nagu näete, on tulemus tõesti parem, isegi kui see pole täielikult täpne.
Käsk teisendama imagemagicki pakett võimaldab meil eraldada GIF-piltidest kaadreid, mida Tesseract hiljem töödelda.
Süntaks on lihtne:
teisendamaTulemus genereeritakse failide arvuna GIF-i kaadritena, toodud näites oleksid tulemused järgmised: väljund-0.jpg, väljund-1.jpg, väljund-2.jpg, jne.
Seejärel saate neid tesseractiga töödelda, käskides töödelda kõiki metamärgiga faile, salvestades tulemuse ühes failis, käivitades:
i jaoks väljundis - *; tee tesseract $ i väljunditulemust; tehtud;Imagemagickil on piltide optimeerimiseks palju erinevaid võimalusi ja üldine režiim puudub. Iga stsenaariumi jaoks peaksite lugema konverteerimise käsulehte.
Loodan, et leidsite selle õpetuse Tesseractist tulemuseks.