OCR

Hvordan kjøre tesseract på GIF-fil i Linux

Hvordan kjøre tesseract på GIF-fil i Linux
Tesseract er et OCR-system (Optical Character Recognition), blant de beste. OCR-programvare er i stand til å forstå tekst fra bilder og skannede dokumenter (inkludert håndskrift hvis du trener den). Et OCR-system kan være nyttig for mange oppgaver som ordtelling skannede dokumenter, automatisk transkripsjon, konvertering av tegn fra bilde til tekst og mer.

LinuxHint har allerede publisert en veiledning som forklarer hvordan du installerer og forstår Tesseracts opplæring.

Denne opplæringen viser Tesseracts installasjonsprosess i Debian / Ubuntu-systemer, men utvides ikke med hensyn til treningsfunksjoner. Hvis du ikke er kjent med denne programvaren, kan det være en god introduksjon å lese den nevnte artikkelen.  Deretter viser vi deg hvordan du behandler et GIF-bilde med Tesseract for å få teksten ut av det.

Tesseract installasjon:

Løpe:

apt installere tesseract-ocr

Nå må du installere imagemagick som er en bildekonverterer.

Når vi er installert, kan vi allerede teste Tesseract, for å teste det fant jeg et gif som er lisensiert for gjenbruk.

La oss nå se hva som skjer når vi kjører tesseract på gif-bildet:

tesseract 2002NY40.gif 1resultat

Gjør nå en "mindre" på 1 resultat.tekst

mindre 1resultat.tekst

Her er bildet med teksten:

I denne Tesseracts standardinnstillinger er ganske nøyaktige, vanligvis for å få en slik nøyaktighet krever det trening. La oss prøve et nytt gratis bilde jeg fant på Wiki Commons, etter at det ble lastet ned:

tesseract Actualizar_GNULinux_Terminal_apt-get.gif 2result

Sjekk nå filens innhold.

mindre 2resultat.tekst


Det var resultatet mens innholdet i det opprinnelige bildet var:

For å forbedre karaktergjenkjenningen har vi mange alternativer og trinn å følge som ble beskrevet i vår forrige opplæring: fjerning av kant, fjerning av støy, størrelseoptimalisering og siderotasjon blant andre funksjoner som avling.

For denne opplæringen bruker vi textcleaner, et skript utviklet av Freds ImageMagick Scripts.

Last ned skriptet og kjør:

./ textcleaner -g -e stretch -f 25 -o 10 -s 1
Actualizar_GNULinux_Terminal_apt-get.gif-test.gif

Merk: før du kjører skriptet, gi det kjøringstillatelser ved å kjøre “chmod + x tekstrenser”Som rot eller med sudo prefiks.

Hvor:

tekstrens: kaller programmet

-g: Konverter bildet til gråtoner

-e: enache

-f: filterstørrelse

-s: sharpamt, mengden pikslersliping som skal brukes på resultatet.

For informasjon og eksempler på bruk med textcleaner besøk http: // www.fmwconcepts.com / imagemagick / textcleaner / index.php

Som du ser endret tekstrenseren bakgrunnsfargen, og økte kontrasten mellom skrift og bakgrunn.

Hvis vi kjører tesseract vil sannsynligvis resultatet være annerledes:

tesseract test.gif testoutput

mindre testutgang

Som du ser ble resultatet virkelig forbedret selv når det ikke er helt nøyaktig.

Kommandoen konvertere levert av imagemagick tillater oss å trekke ut rammer fra gif-bilder som skal behandles senere av Tesseract, dette er nyttig hvis det er ekstra høyt innhold i forskjellige rammer av gif-bildet.

Syntaksen er enkel:

konvertere

Resultatet vil bli generert som antall filer som rammer i gif, i det angitte eksemplet vil resultatene være: utgang-0.jpg, utgang-1.jpg, utgang-2.jpg, etc.

Deretter kan du behandle dem med tesseract og instruere den om å behandle alle filer med et jokertegn, og lagre resultatet i en enkelt fil ved å kjøre:

for i i utgang- *; do tesseract $ i outputresult; gjort;

Imagemagick har et stort utvalg av alternativer for å optimalisere bilder, og det er ikke en generisk modus, for hver type scenario bør du lese konverterings kommandoside.

Jeg håper du syntes denne opplæringen på Tesseract ble nyttig.

Hvordan installere og spille Doom på Linux
Introduksjon til Doom Doom-serien stammer fra 90-tallet etter utgivelsen av den originale Doom. Det ble en øyeblikkelig suksess, og fra den tiden og u...
Vulkan for Linux-brukere
Med hver nye generasjon grafikkort ser vi spillutviklere skyve grensene for grafisk troskap og komme et skritt nærmere fotorealisme. Men til tross for...
OpenTTD vs Simutrans
Å lage din egen transportsimulering kan være morsom, avslappende og ekstremt fristende. Derfor må du sørge for at du prøver så mange spill som mulig f...