Tesseract OCR-i installimine Linuxi
Tesseract OCR on vaikimisi saadaval enamikus Linuxi distributsioonides. Selle saate installida Ubuntu, kasutades järgmist käsku:
$ sudo apt install tesseract-ocrÜksikasjalikud juhised teiste levituste kohta on saadaval siin. Kuigi Tesseract OCR on vaikimisi saadaval paljude Linuxi distributsioonide hoidlates, on täpsuse ja sõelumise huvides soovitatav installida uusim versioon ülalnimetatud lingilt.
Tesseract OCR-i täiendavate keelte toe installimine
Tesseract OCR sisaldab tuge teksti tuvastamiseks enam kui 100 keeles. Kuid ingliskeelse teksti tuvastamiseks saate tuge ainult Ubuntu vaikinstallimisega. Toetuse lisakeelte sõelumiseks Ubuntu lisamiseks käivitage käsk järgmises vormingus:
$ sudo apt install tesseract-ocr-hinÜlaltoodud käsk lisab Tesseract OCR-ile hindi keele toe. Mõnikord saate keele skriptide toe installimisega paremat täpsust ja tulemusi. Näiteks Devessagari skripti tesseract paketi „tesseract-ocr-script-deva” installimine ja kasutamine andis mulle palju täpsemaid tulemusi kui paketi „tesseract-ocr-hin” kasutamine.
Ubuntust leiate kõigi keelte ja skriptide õiged paketinimed, käivitades alloleva käsu:
$ apt-vahemälu otsing tesseract-Kui olete installimiseks õige paketi nime tuvastanud, asendage string "tesseract-ocr-hin" sellega ülaltoodud esimeses käsus.
Tesseract OCR-i kasutamine piltidest teksti väljavõtmiseks
Võtame näite allpool näidatud pildist (võetud Wikipedia lehelt Linuxile):
Ülaltoodud pildilt teksti väljavõtmiseks peate käivitama käsu järgmises vormingus:
$ tesseract püüdmine.png väljund -l engÜlaltoodud käsu käivitamine annab järgmise väljundi:
Ülalolevas käsus „lüüa.png ”tähistab pilti, millest soovite teksti välja tõmmata. Seejärel salvestatakse hõivatud väljund jaotises „Väljund.txt ”fail. Keelt saab muuta, asendades argumendi „eng” enda valitud. Kõigi kehtivate keelte nägemiseks käivitage järgmine käsk:
$ tesseract --list-langsSee näitab kõigi teie süsteemi Tesseract OCR-i toetatud keelte lühendite koode. Vaikimisi kuvatakse väljundina ainult „eng”. Kui installite paketid täiendavatele keeltele, nagu eespool selgitatud, loetleb see käsk veel keeli, mida saate teksti tuvastamiseks kasutada (ISO 639 kolmetäheliste keelekoodidena).
Kui pilt sisaldab teksti mitmes keeles, määrake esmalt esmane keel ja seejärel plussmärkidega eraldatud lisakeeled.
$ tesseract püüdmine.png väljund -l eng + fraKui soovite väljundi salvestada otsitava PDF-failina, käivitage käsk järgmises vormingus:
$ tesseract püüdmine.png väljund -l eng pdfPange tähele, et otsitav PDF-fail ei sisalda muudetavat teksti. See sisaldab originaalpilti koos lisakihiga, mis sisaldab pildile pealekantud tuvastatud teksti. Nii et kui saate PDF-failis teksti täpselt otsida mis tahes PDF-lugeri abil, ei saa te teksti redigeerida.
Teine punkt, mida peaksite arvestama, et tekstituvastuse täpsus suureneb oluliselt, kui pildifail on kõrge kvaliteediga. Kasutades valikut, kasutage alati kadudeta failivorminguid või PNG-faile. JPG-failide kasutamine ei pruugi anda parimaid tulemusi.
Teksti ekstraheerimine mitmelehelisest PDF-failist
Tesseract OCR ei toeta loomulikult teksti eraldamist PDF-failidest. Mitmelehelisest PDF-failist on siiski võimalik teksti välja tõmmata, teisendades iga lehe pildifailiks. Käivitage allolev käsk, et teisendada PDF-fail pildikomplektiks:
$ pdftoppm -png fail.pdf-väljundIga PDF-faili lehe jaoks saate vastava väljundi-1.png ”,“ väljund-2.png ”fail jne.
Nendest piltidest teksti eraldamiseks ühe käsu abil peate bashi käsus kasutama "for loop":
$ i eest *.png; tee tesseract "$ i" "väljund- $ i" -l eng; tehtud;Ülaltoodud käsu käivitamine eraldab teksti kõigist.png ”failid, mis on leitud töökataloogist ja salvestavad tuvastatud teksti kausta“ output-original_filename ”.txt ”failid. Saate muuta käsu keskosa vastavalt oma vajadustele.
Kui soovite kombineerida kõik tuvastatud teksti sisaldavad tekstifailid, käivitage järgmine käsk:
$ kass *.txt> liitus.txtProtsess teksti väljavõtmiseks mitmelehelisest PDF-failist otsitavatesse PDF-failidesse on peaaegu sama. Käsule peate lisama täiendava "pdf" argumendi:
$ i eest *.png; tee tesseract "$ i" "väljund- $ i" -l eng pdf; tehtud;Kui soovite ühendada kõik tuvastatud teksti sisaldavad otsitavad PDF-failid, käivitage järgmine käsk:
$ pdfunite *.pdf liitus.pdfNii “pdftoppm” kui “pdfunite” on vaikimisi installitud Ubuntu uusimale stabiilsele versioonile.
TXT- ja otsitavate PDF-failide teksti väljavõtmise eelised ja puudused
Kui eraldate tunnustatud teksti TXT-failidesse, saate redigeeritava tekstiväljundi. Kuid kõik dokumendi vormingud lähevad kaotsi (paksud, kursiivkirjad jne). Otsitavad PDF-failid säilitavad algse vormingu, kuid kaotate teksti redigeerimisvõimalused (saate siiski toorteksti kopeerida). Kui avate otsitava PDF-faili mis tahes PDF-redaktoris, saate faili sisse põimitud pildid, mitte toores tekstiväljund. Otsitavate PDF-failide HTML-i või EPUB-vormingusse teisendamine annab teile ka manustatud pildid.
Järeldus
Tesseract OCR on tänapäeval üks levinumaid OCR-mootoreid. See on tasuta avatud lähtekoodiga ja toetab üle saja keele. Tesseract OCR-i kasutamisel kasutage teksti tuvastamise täpsuse parandamiseks käsurea argumentides kõrglahutusega pilte ja korrigeerige keelekoode.