Tesseract OCR-i installimine Linuxi

Tesseract OCR (Optical Character Recognition) on tasuta ja avatud lähtekoodiga mootor ja käsureaprogramm, mis eraldab piltidest teksti optilise märgituvastustehnoloogia ja algoritmide abil. Projekti toetab Google ja alates tänasest peetakse seda parimaks avatud lähtekoodiga OCR-mootoriks. See suudab suure täpsusega tuvastada ja ekstraktida teksti paljudes keeltes.

Tesseract OCR-i installimine Linuxi

Tesseract OCR on vaikimisi saadaval enamikus Linuxi distributsioonides. Selle saate installida Ubuntu, kasutades järgmist käsku:

$ sudo apt install tesseract-ocr

Üksikasjalikud juhised teiste levituste kohta on saadaval siin. Kuigi Tesseract OCR on vaikimisi saadaval paljude Linuxi distributsioonide hoidlates, on täpsuse ja sõelumise huvides soovitatav installida uusim versioon ülalnimetatud lingilt.

Tesseract OCR-i täiendavate keelte toe installimine

Tesseract OCR sisaldab tuge teksti tuvastamiseks enam kui 100 keeles. Kuid ingliskeelse teksti tuvastamiseks saate tuge ainult Ubuntu vaikinstallimisega. Toetuse lisakeelte sõelumiseks Ubuntu lisamiseks käivitage käsk järgmises vormingus:

$ sudo apt install tesseract-ocr-hin

Ülaltoodud käsk lisab Tesseract OCR-ile hindi keele toe. Mõnikord saate keele skriptide toe installimisega paremat täpsust ja tulemusi. Näiteks Devessagari skripti tesseract paketi „tesseract-ocr-script-deva” installimine ja kasutamine andis mulle palju täpsemaid tulemusi kui paketi „tesseract-ocr-hin” kasutamine.

Ubuntust leiate kõigi keelte ja skriptide õiged paketinimed, käivitades alloleva käsu:

$ apt-vahemälu otsing tesseract-

Kui olete installimiseks õige paketi nime tuvastanud, asendage string "tesseract-ocr-hin" sellega ülaltoodud esimeses käsus.

Tesseract OCR-i kasutamine piltidest teksti väljavõtmiseks

Võtame näite allpool näidatud pildist (võetud Wikipedia lehelt Linuxile):

Ülaltoodud pildilt teksti väljavõtmiseks peate käivitama käsu järgmises vormingus:

$ tesseract püüdmine.png väljund -l eng

Ülaltoodud käsu käivitamine annab järgmise väljundi:

Ülalolevas käsus „lüüa.png ”tähistab pilti, millest soovite teksti välja tõmmata. Seejärel salvestatakse hõivatud väljund jaotises „Väljund.txt ”fail. Keelt saab muuta, asendades argumendi „eng” enda valitud. Kõigi kehtivate keelte nägemiseks käivitage järgmine käsk:

$ tesseract --list-langs

See näitab kõigi teie süsteemi Tesseract OCR-i toetatud keelte lühendite koode. Vaikimisi kuvatakse väljundina ainult „eng”. Kui installite paketid täiendavatele keeltele, nagu eespool selgitatud, loetleb see käsk veel keeli, mida saate teksti tuvastamiseks kasutada (ISO 639 kolmetäheliste keelekoodidena).

Kui pilt sisaldab teksti mitmes keeles, määrake esmalt esmane keel ja seejärel plussmärkidega eraldatud lisakeeled.

$ tesseract püüdmine.png väljund -l eng + fra

Kui soovite väljundi salvestada otsitava PDF-failina, käivitage käsk järgmises vormingus:

$ tesseract püüdmine.png väljund -l eng pdf

Pange tähele, et otsitav PDF-fail ei sisalda muudetavat teksti. See sisaldab originaalpilti koos lisakihiga, mis sisaldab pildile pealekantud tuvastatud teksti. Nii et kui saate PDF-failis teksti täpselt otsida mis tahes PDF-lugeri abil, ei saa te teksti redigeerida.

Teine punkt, mida peaksite arvestama, et tekstituvastuse täpsus suureneb oluliselt, kui pildifail on kõrge kvaliteediga. Kasutades valikut, kasutage alati kadudeta failivorminguid või PNG-faile. JPG-failide kasutamine ei pruugi anda parimaid tulemusi.

Teksti ekstraheerimine mitmelehelisest PDF-failist

Tesseract OCR ei toeta loomulikult teksti eraldamist PDF-failidest. Mitmelehelisest PDF-failist on siiski võimalik teksti välja tõmmata, teisendades iga lehe pildifailiks. Käivitage allolev käsk, et teisendada PDF-fail pildikomplektiks:

$ pdftoppm -png fail.pdf-väljund

Iga PDF-faili lehe jaoks saate vastava väljundi-1.png ”,“ väljund-2.png ”fail jne.

Nendest piltidest teksti eraldamiseks ühe käsu abil peate bashi käsus kasutama "for loop":

$ i eest *.png; tee tesseract "$ i" "väljund- $ i" -l eng; tehtud;

Ülaltoodud käsu käivitamine eraldab teksti kõigist.png ”failid, mis on leitud töökataloogist ja salvestavad tuvastatud teksti kausta“ output-original_filename ”.txt ”failid. Saate muuta käsu keskosa vastavalt oma vajadustele.

Kui soovite kombineerida kõik tuvastatud teksti sisaldavad tekstifailid, käivitage järgmine käsk:

$ kass *.txt> liitus.txt

Protsess teksti väljavõtmiseks mitmelehelisest PDF-failist otsitavatesse PDF-failidesse on peaaegu sama. Käsule peate lisama täiendava "pdf" argumendi:

$ i eest *.png; tee tesseract "$ i" "väljund- $ i" -l eng pdf; tehtud;

Kui soovite ühendada kõik tuvastatud teksti sisaldavad otsitavad PDF-failid, käivitage järgmine käsk:

$ pdfunite *.pdf liitus.pdf

Nii “pdftoppm” kui “pdfunite” on vaikimisi installitud Ubuntu uusimale stabiilsele versioonile.

TXT- ja otsitavate PDF-failide teksti väljavõtmise eelised ja puudused

Kui eraldate tunnustatud teksti TXT-failidesse, saate redigeeritava tekstiväljundi. Kuid kõik dokumendi vormingud lähevad kaotsi (paksud, kursiivkirjad jne). Otsitavad PDF-failid säilitavad algse vormingu, kuid kaotate teksti redigeerimisvõimalused (saate siiski toorteksti kopeerida). Kui avate otsitava PDF-faili mis tahes PDF-redaktoris, saate faili sisse põimitud pildid, mitte toores tekstiväljund. Otsitavate PDF-failide HTML-i või EPUB-vormingusse teisendamine annab teile ka manustatud pildid.

Järeldus

Tesseract OCR on tänapäeval üks levinumaid OCR-mootoreid. See on tasuta avatud lähtekoodiga ja toetab üle saja keele. Tesseract OCR-i kasutamisel kasutage teksti tuvastamise täpsuse parandamiseks käsurea argumentides kõrglahutusega pilte ja korrigeerige keelekoode.