OCR

Kuidas käivitada tesseract GIF-failis Linuxis

Kuidas käivitada tesseract GIF-failis Linuxis
Tesseract on OCR (Optical Character Recognition) süsteem, mis kuulub parimate hulka. OCR-tarkvara on võimeline aru saama piltide ja skannitud dokumentide tekstist (sh käekiri, kui seda koolitate). OCR-süsteem võib olla kasulik paljude ülesannete jaoks, näiteks sõnade lugemine skannitud dokumentide jaoks, automaatne transkriptsioon, märkide teisendamine pildist tekstiks ja palju muud.

LinuxHint avaldas juba õpetuse, milles selgitatakse, kuidas installida ja mõista Tesseract'i koolitust.

See õpetus näitab Tesseracti installiprotsessi Debiani / Ubuntu süsteemides, kuid ei laiene koolitusfunktsioonidele, kui te pole selle tarkvaraga kursis, võib mainitud artikli lugemine olla hea sissejuhatus.  Siis näitame teile, kuidas töödelda GIF-pilti Tesseractiga, et tekst sellest välja saada.

Tesseract paigaldus:

Käivita:

apt install tesseract-ocr

Nüüd peate installima imagemagick, mis on pildi teisendaja.

Kui see on installitud, saame juba Tesseracti testida. Selle testimiseks leidsin korduskasutuseks litsentseeritud gifi.

Vaatame nüüd, mis juhtub, kui käivitame gif-pildil tesseract:

tesseract 2002NY40.gif 1tulemus

Nüüd tehke ühe tulemuse puhul vähem.txt

vähem 1tulemus.txt

Siin on pilt koos selle tekstiga:

Selles Tesseract'i vaikeseaded on üsna täpsed, tavaliselt on sellise täpsuse saamiseks vaja koolitust. Proovime veel ühte tasuta pilti, mille leidsin Wiki Commonsist, pärast selle allalaadimist:

tesseract Actualizar_GNULinux_Terminal_apt-get.gif 2tulemus

Nüüd kontrollige faili sisu.

vähem 2tulemus.txt


See oli tulemus, kui originaalpildi sisu oli:

Märgituvastuse parandamiseks on meil palju juhiseid ja samme, mida järgisime meie eelmises õpetuses: piiride eemaldamine, müra eemaldamine, suuruse optimeerimine ja lehtede pööramine muude funktsioonide, nagu kärpimine.

Selle õpetuse jaoks kasutame teksti puhastaja, skripti, mille on välja töötanud Fred's ImageMagick Scripts.

Laadige skript alla ja käivitage:

./ textcleaner -g -e stretch -f 25 -o 10 -s 1
Actualizar_GNULinux_Terminal_apt-get.gif-test.gif

Märge: anna enne skripti käivitamist käivitamisõigused käivitadeschmod + x tekstipuhastaja”Juurena või koos sudo eesliide.

Kus:

teksti puhastaja: kutsub programmi

-g: Teisendage pilt halltooniks

-e: enache

-f: filtri suurus

-s: sharpamt, tulemusele rakendatava piksli teritamise kogus.

Lisateavet ja näiteid tekstipuhastajaga kasutamise kohta leiate aadressilt http: // www.fmwkontseptsioonid.com / imagemagick / textcleaner / index.php

Nagu näete, puhastas textcleaner taustavärvi, suurendades fondi ja tausta kontrastsust.

Kui käivitame tesseract'i, on tulemus tõenäoliselt erinev:

tesseract test.gif-testi väljund

vähem testimisvõimalusi

Nagu näete, on tulemus tõesti parem, isegi kui see pole täielikult täpne.

Käsk teisendama imagemagicki pakett võimaldab meil eraldada GIF-piltidest kaadreid, mida Tesseract hiljem töödelda.

Süntaks on lihtne:

teisendama

Tulemus genereeritakse failide arvuna GIF-i kaadritena, toodud näites oleksid tulemused järgmised: väljund-0.jpg, väljund-1.jpg, väljund-2.jpg, jne.

Seejärel saate neid tesseractiga töödelda, käskides töödelda kõiki metamärgiga faile, salvestades tulemuse ühes failis, käivitades:

i jaoks väljundis - *; tee tesseract $ i väljunditulemust; tehtud;

Imagemagickil on piltide optimeerimiseks palju erinevaid võimalusi ja üldine režiim puudub. Iga stsenaariumi jaoks peaksite lugema konverteerimise käsulehte.

Loodan, et leidsite selle õpetuse Tesseractist tulemuseks.

Parimad mängude jaoks mõeldud Linuxi distrod 2021. aastal
Linuxi operatsioonisüsteem on oma algsest, lihtsast, serveripõhisest välimusest kaugele jõudnud. See operatsioonisüsteem on viimastel aastatel tohutul...
Kuidas Linuxis oma mänguseanssi jäädvustada ja voogesitada
Varem peeti mängude mängimist ainult hobiks, kuid aja jooksul kasvas mängutööstus tehnoloogia ja mängijate arvu osas tohutult. Mängupublik on veebimän...
Parimad mängud, mida saab mängida käte jälgimisega
Oculus Quest tutvustas hiljuti suurepärast ideed käsitsi jälgimisest ilma kontrolleriteta. Üha suurema hulga mängude ja tegevustega, mis toetavad kas ...