Hvordan Image-to-Text Works (også kendt som Optical Character Recognition)

At trække tekst ud af billeder har aldrig været lettere end det er i dag takket være optisk tegnegenkendelse (OCR) -teknologi. Men hvad er OCR? Og hvordan fungerer OCR?

At trække tekst ud af billeder har aldrig været lettere end det er i dag takket være optisk tegnegenkendelse (OCR) -teknologi.  Men hvad er OCR?  Og hvordan fungerer OCR?
Reklame

At trække tekst ud af billeder har aldrig været lettere end det er i dag takket være optisk tegnegenkendelse (OCR) -teknologi.

OCR giver os mulighed for at gøre alle mulige nyttige ting, f.eks. At søge efter billeder ved hjælp af tekstforespørgsler, gengive dokumenter uden at skrive dem manuelt og endda konvertere håndskrevet tekst til digital tekst. Sådan konverteres et billede med håndskrift til tekst ved hjælp af OCR Sådan konverteres et billede med håndskrift til tekst ved hjælp af OCR For at konvertere et billede af håndskrevet tekst til digital tekst, som du kan redigere og søge, har du brug for et OCR-værktøj (optisk tegngenkendelse). Prøv et af disse OCR-værktøjer til at digitalisere håndskrift. Læs mere .

Men hvad er optisk tegngenkendelse? Hvordan virker det faktisk? Det kan virke som sort magi til dig, men i slutningen af ​​denne artikel har du en solid forståelse for, hvordan computere kan genkende bogstaver og ord.

Hvordan optisk karaktergenkendelse virker

For at forstå, hvordan tekst bliver hentet ud fra et billede, skal vi først forstå, hvilke billeder der er, og hvordan de gemmes på computere.

En pixel er en enkelt prik af en bestemt farve. Et billede er i det væsentlige en samling af pixels. Jo flere pixels i et billede, jo højere er dens opløsning. En computer ved ikke, at et billede af et skilt er virkelig et skilt - det ved bare, at den første pixel er denne farve, den næste pixel er den farve og viser alle dens pixels for at se.

Det betyder, at tekst og ikke-tekst ikke adskiller sig fra en computer, og derfor er optisk tegngenkendelse så vanskelig. Med det i tankerne, her er hvordan det virker.

Trin 1: Forbehandling af billedet

Før teksten kan trækkes, skal billedet masseres på visse måder for at gøre udvindingen nemmere og mere sandsynlig for at lykkes. Dette kaldes forbehandling, og forskellige software løsninger bruger forskellige kombinationer af teknikker.

De mere almindelige forbehandlingsteknikker omfatter:

Binarization
Hver enkelt pixel i billedet konverteres til enten sort eller hvid. Målet er at bestemme, hvilke pixels der tilhører tekst, og hvilke pixels der tilhører baggrunden, hvilket fremskynder den faktiske OCR-proces.

Binarisering til optisk karaktergenkendelse

skævhed
Da dokumenter sjældent scannes med perfekt justering, kan tegnene ende op skrå eller endda på hovedet. Målet her er at identificere vandrette tekstlinjer og derefter dreje billedet, så disse linjer faktisk er vandrette.

Pletfjerning
Uanset om billedet er binariseret eller ej, kan der være støj, der kan forstyrre identifikationen af ​​tegn. Despeckling slippe af med den støj og forsøger at udjævne billedet.

Linjefjernelse
Identificerer alle linjer og markeringer, der sandsynligvis ikke er tegn, og fjerner dem, så den faktiske OCR-proces ikke bliver forvirret. Det er især vigtigt, når du scanner dokumenter med tabeller og bokse.

zoneinddeling
Afskiller billedet i forskellige klumper af tekst, som f.eks. Identifikation af kolonner i flere kolonne dokumenter.

Zonering for Optisk Tegn Genkendelse
Billedkredit: WayneRay / Wikimedia

Trin 2: Behandling af billedet

For det første forsøger OCR-processen at etablere basislinjen for hver tekstlinie i billedet (eller hvis den blev zonet i forbehandling, vil den arbejde gennem hver zone en ad gangen). Hver identificeret linje af tegn håndteres en efter en.

For hver linje af tegn identificerer OCR-softwaren afstanden mellem tegn ved at kigge efter lodrette linjer af ikke-tekstpixel (hvilket skal være indlysende med korrekt binarisering). Hver klump af pixels mellem disse ikke-tekstlinjer er markeret som et "token", der repræsenterer et tegn. Derfor kaldes dette trin tokenisering .

Billedbehandling til optisk tegngennkendelse

Når alle de potentielle tegn i billedet er tokeniseret, kan OCR-softwaren bruge to forskellige teknikker til at identificere, hvilke tegn disse tokens faktisk er:

Mønster genkendelse
Hver token sammenlignes pixel-til-pixel imod et helt sæt af kendte glyfer, herunder tal, tegnsætning og andre specielle symboler - og det nærmeste match vælges. Denne teknik er også kendt som matrix matching.

Der er flere ulemper her. For det første skal tokens og glyfer være af samme størrelse, ellers vil ingen af ​​dem svare. For det andet skal tokens være i en lignende skrifttype som glyphs, som regulerer håndskrift. Men hvis tokenens skrifttype er kendt, kan mønstergenkendelse være hurtig og præcis.

Feature Extraction
Hver token sammenlignes med forskellige regler, der beskriver, hvilken slags karakter det kan være. For eksempel er to lodrette linjer med lige højde forbundet med en enkelt vandret linje sandsynligvis en hovedstad H.

Denne teknik er nyttig, fordi den ikke er begrænset til bestemte skrifttyper eller størrelser. Det kan også nyanseres ved at genkende de subtile forskelle mellem en kapital I, små bogstaver L og nummer 1. Ulempen? Programmering af reglerne er meget mere kompleks end blot at sammenligne pixlerne i et symbol på pixlerne i en glyph.

Trin 3: Efterbehandling af billedet

Når alle token matchning er færdig, kunne OCR software bare kalde det en dag og præsentere resultaterne for dig. Men som regel lidt mere fudging skal gøres for at sikre, at du ikke ruller dine øjne på gibberish resultater.

Lexical Restriction
Alle ord sammenlignes med et leksikon af godkendte ord, og alle, der ikke stemmer overens, erstattes med det nærmeste passende ord. En ordbog er et eksempel på et leksikon. Dette kan hjælpe med at rette ord med fejlagtige tegn, som "torn" i stedet for "th0rn".

Applikationsspecifikke optimeringer
Når OCR bruges i nicheindstillinger, som for medicinske eller juridiske dokumenter, kan der bruges en speciel type OCR, der er specielt designet til denne indstilling. I disse tilfælde kan OCR-softwaren se efter matematiske ligninger, industrispecifikke vilkår osv.

Naturligt sprog
Denne avancerede teknik korrigerer sætninger ved at bruge en sprogmodel, der beskriver, hvor sandsynligt visse ord skal følges af andre ord. Det ligner den teknologi, der forudsiger, hvilket ord du vil skrive næste på et mobiltastatur.

Når det gøres godt, kan det resultere i tekst, der er bemærkelsesværdigt læsbar.

Anbefalede optiske tegn anerkendelsesværktøjer

Nu hvor du ved, hvordan OCR fungerer, skal det være nemt at se, at ikke alle OCR værktøjer laves lige. Nøjagtigheden af ​​dine resultater afhænger meget af, hvor godt softwaren implementerer de forskellige OCR-teknikker, der diskuteres i denne artikel.

Vi anbefaler stærkt OneNote til dette, hvilket er kun én årsag til, at det slår Evernote til notering Evernote vs OneNote: Hvilken note-taking-app passer til dig? Evernote vs OneNote: Hvilken note-Taking App er rigtig for dig? Evernote og OneNote er fantastiske note-taking apps. Det er svært at vælge mellem de to. Vi sammenlignede alt fra interface til note organisation for at hjælpe dig med at vælge. Hvad virker bedst for dig? Læs mere . Hvis du er villig til at betale for en premium løsning, skal du overveje OmniPage. Se vores sammenligning af OneNote vs OmniPage til OCR Free vs Paid OCR Software: Microsoft OneNote og Nuance OmniPage Sammenlignet Gratis vs Betalt OCR-software: Microsoft OneNote og Nuance OmniPage Sammenlignet OCR scanner software giver dig mulighed for at konvertere tekst i billeder eller PDF-filer til redigerbar tekst Dokumenter. Er et gratis OCR-værktøj som OneNote godt nok? Lad os finde ud af det! Læs mere . Til mobile dokumenter vil du tjekke disse OCR-apps til Android-enheder 6 Bedste Android OCR-apps til udtrækning af tekst fra billeder 6 Bedste Android OCR-apps til udtrækning af tekst fra billeder Har du brug for at digitalisere enhver trykt tekst, så du kan opretholde en blød kopi af det? Hvis det er tilfældet, er alt du behøver et værktøj til optisk tegngennkendelse (OCR). Læs mere .

Hvordan bruger du OCR? Har du nogen yndlings-OCR-værktøjer, som vi ikke nævner? Lad os vide i kommentarerne nedenfor!

In this article