LinuxHint har allerede publisert en veiledning som forklarer hvordan du installerer og forstår Tesseracts opplæring.
Denne opplæringen viser Tesseracts installasjonsprosess i Debian / Ubuntu-systemer, men utvides ikke med hensyn til treningsfunksjoner. Hvis du ikke er kjent med denne programvaren, kan det være en god introduksjon å lese den nevnte artikkelen. Deretter viser vi deg hvordan du behandler et GIF-bilde med Tesseract for å få teksten ut av det.
Tesseract installasjon:
Løpe:
apt installere tesseract-ocr
Nå må du installere imagemagick som er en bildekonverterer.
Når vi er installert, kan vi allerede teste Tesseract, for å teste det fant jeg et gif som er lisensiert for gjenbruk.
La oss nå se hva som skjer når vi kjører tesseract på gif-bildet:
tesseract 2002NY40.gif 1resultat
Gjør nå en "mindre" på 1 resultat.tekst
mindre 1resultat.tekst
Her er bildet med teksten:
I denne Tesseracts standardinnstillinger er ganske nøyaktige, vanligvis for å få en slik nøyaktighet krever det trening. La oss prøve et nytt gratis bilde jeg fant på Wiki Commons, etter at det ble lastet ned:
tesseract Actualizar_GNULinux_Terminal_apt-get.gif 2result
Sjekk nå filens innhold.
mindre 2resultat.tekst
Det var resultatet mens innholdet i det opprinnelige bildet var:
For å forbedre karaktergjenkjenningen har vi mange alternativer og trinn å følge som ble beskrevet i vår forrige opplæring: fjerning av kant, fjerning av støy, størrelseoptimalisering og siderotasjon blant andre funksjoner som avling.
For denne opplæringen bruker vi textcleaner, et skript utviklet av Freds ImageMagick Scripts.
Last ned skriptet og kjør:
./ textcleaner -g -e stretch -f 25 -o 10 -s 1Actualizar_GNULinux_Terminal_apt-get.gif-test.gif
Merk: før du kjører skriptet, gi det kjøringstillatelser ved å kjøre “chmod + x tekstrenser”Som rot eller med sudo prefiks.
Hvor:
tekstrens: kaller programmet
-g: Konverter bildet til gråtoner
-e: enache
-f: filterstørrelse
-s: sharpamt, mengden pikslersliping som skal brukes på resultatet.
For informasjon og eksempler på bruk med textcleaner besøk http: // www.fmwconcepts.com / imagemagick / textcleaner / index.php
Som du ser endret tekstrenseren bakgrunnsfargen, og økte kontrasten mellom skrift og bakgrunn.
Hvis vi kjører tesseract vil sannsynligvis resultatet være annerledes:
tesseract test.gif testoutputmindre testutgang
Som du ser ble resultatet virkelig forbedret selv når det ikke er helt nøyaktig.
Kommandoen konvertere levert av imagemagick tillater oss å trekke ut rammer fra gif-bilder som skal behandles senere av Tesseract, dette er nyttig hvis det er ekstra høyt innhold i forskjellige rammer av gif-bildet.
Syntaksen er enkel:
konvertereResultatet vil bli generert som antall filer som rammer i gif, i det angitte eksemplet vil resultatene være: utgang-0.jpg, utgang-1.jpg, utgang-2.jpg, etc.
Deretter kan du behandle dem med tesseract og instruere den om å behandle alle filer med et jokertegn, og lagre resultatet i en enkelt fil ved å kjøre:
for i i utgang- *; do tesseract $ i outputresult; gjort;Imagemagick har et stort utvalg av alternativer for å optimalisere bilder, og det er ikke en generisk modus, for hver type scenario bør du lese konverterings kommandoside.
Jeg håper du syntes denne opplæringen på Tesseract ble nyttig.