Hoe OCR van de Linux Commando-Regel Met Tesseract

0
55
Fatmawati Achmad Zaenuri/Shutterstock

U kunt tekst uit afbeeldingen op de Linux commando-regel met behulp van de Tesseract OCR-engine. Het is snel, nauwkeurig, en werkt ongeveer 100 talen. Hier is hoe het te gebruiken.

Optical Character Recognition

Optical character recognition (OCR) is de mogelijkheid om te kijken naar en het vinden van woorden in een beeld, en dan halen ze als bewerkbare tekst. Deze eenvoudige taak voor de mens is zeer moeilijk voor computers te maken. Het begin van de inspanning waren onhandig, om te zeggen het minst. Computers zijn vaak in de war als het lettertype of de grootte was niet om de OCR-software van smaak.

Niettemin, de pioniers op dit gebied waren nog steeds hoog in het vaandel. Indien u de elektronische versie van een document, maar had nog steeds een gedrukte versie, OCR kon opnieuw maken van een elektronisch bewerkbare versie. Zelfs als de resultaten niet 100 procent nauwkeurig, dit was nog steeds een geweldige time-saver.

Met een handleiding op te ruimen, zou u uw document terug. Mensen vergevingsgezind zijn over de fouten die het gemaakt, want zij begrepen de complexiteit van de taak van een OCR-pakket. Plus, het was beter dan het overtypen van het hele document.

Dingen aanzienlijk verbeterd sindsdien. De Tesseract OCR-toepassing, geschreven door Hewlett Packard, begon in de jaren 1980 als een commerciële toepassing. Het is open-source in 2005, en het is nu ondersteund door Google. Het heeft een multi-taal mogelijkheden, wordt beschouwd als een van de meest nauwkeurige OCR-systemen beschikbaar, en u kunt het gratis gebruiken.

Het installeren van Tesseract OCR

Te installeren Tesseract OCR op Ubuntu, gebruik je dit commando:

sudo apt-get install tesseract-ocr

Op Fedora, de opdracht is:

sudo dnf installeren tesseract

Op Manjaro, moet je het volgende typen:

sudo pacman -Syu tesseract

Met behulp van Tesseract OCR

We gaan naar vormen een uitdaging voor Tesseract OCR. Onze eerste foto met tekst is een uittreksel uit Overweging 63 van de Algemene wet Bescherming persoonsgegevens. Laten we eens zien of OCR kunt dit lezen (en wakker te blijven).

Het is een lastige beeld omdat elke zin begint met een zwakke superscript-nummer, dat is typisch in de juridische documenten.

We moeten de tesseract opdracht bepaalde gegevens, met inbegrip van:

  • De naam van het afbeeldingsbestand in het proces.
  • De naam van het tekstbestand zal maken om te houden van de gewonnen tekst. We hoeven niet voorzien van de extensie (het zal er altijd zijn .txt). Als er al een bestand bestaat met dezelfde naam, zullen deze worden overschreven.
  • We kunnen gebruik maken van de –dpi optie om te vertellen tesseract wat het aantal dots per inch (dpi) resolutie van de afbeelding is. Als we niet zorgen voor een dpi-waarde, tesseract zal proberen het uit te zoeken.

Onze image bestand met de naam “punt-63.png,” en de resolutie van 150 dpi. We gaan om een tekstbestand te maken van het zogenaamde “recital.txt.”

Onze opdracht er als volgt uitziet:

tesseract overweging-63.png overweging –150 dpi

De resultaten zijn zeer goed. Het enige probleem is de superscript—ze waren te zwak om te worden goed gelezen. Een goede kwaliteit van de afbeelding is van vitaal belang om goede resultaten te krijgen.

tesseract heeft uitgelegd superscript nummers als aanhalingstekens (“) en de mate symbolen (°), maar de eigenlijke tekst is gehaald perfect (de rechterkant van het beeld moest worden geknipt om hier te passen).

Het laatste teken is een byte met de hexadecimale waarde van 0x0C, dat is een harde return.

Hieronder is een andere afbeelding met tekst in verschillende maten en zowel vet en cursief.

De naam van dit bestand is een “vet-cursief.png.” We willen een tekst bestand genaamd “bold.txt” dus onze opdracht is:

tesseract vet-cursief.png vet –150 dpi

Deze heb geen enkel probleem opleveren, en de tekst werd gewonnen perfect.

Het Gebruik Van Verschillende Talen

Tesseract OCR ondersteunt ongeveer 100 talen. Voor het gebruik van een taal, moet u het eerst installeren. Wanneer u de taal die u wilt gebruiken in de lijst let op de afkorting. We gaan het installeren van ondersteuning voor het Welsh. De afkorting is “cym,” dat is een afkorting voor “Links”, wat betekent Welsh.

Het installatie pakket heet “tesseract-ocr-” met de afkorting van de taal tagged naar het einde. Het installeren van de Welshe taal-bestand in Ubuntu, gebruiken we:

sudo apt-get install tesseract-ocr-cym

De afbeelding met de tekst hieronder. Het is het eerste vers van de Welsh national anthem.

Laten we eens kijken als Tesseract OCR is de uitdaging. Gebruiken We de optie-l (taal) optie te laten tesseract weten in welke taal we willen werken:

tesseract kip-wlad-fy-nhadau.png-volkslied -l cym –150 dpi

tesseract copes perfect, zoals weergegeven in de uitgepakte tekst hieronder. Da iawn, Tesseract OCR.

Als uw document bevat twee of meer talen (zoals een frans-engels woordenboek, bijvoorbeeld), u kunt een plusteken (+) om te vertellen tesseract toe te voegen een andere taal, zoals:

tesseract beeld.png textfile -l dut+cym+fra

Met behulp van Tesseract OCR met Pdf ‘ s

De tesseract opdracht is ontworpen om te werken met beeldbestanden, maar het kan niet lezen van Pdf ‘ s. Echter, als u de tekst ophalen uit een PDF-bestand, kunt u gebruik maken van een ander hulpprogramma voor het eerst voor het genereren van een set van beelden. Een enkele afbeelding vertegenwoordigt een enkele pagina van het PDF-bestand.

De pdftppm utility moet u al geïnstalleerd op uw Linux-computer. De PDF-we zullen gebruiken voor ons voorbeeld is een kopie van Alan Turing ‘ s baanbrekende paper over kunstmatige intelligentie, “Computing Machinery and Intelligence.”

We maken gebruik van de -png optie om aan te geven dat we willen maken PNG-bestanden. De naam van onze PDF is een “turing.pdf.” We noemen onze image-bestanden “turing-01.png,” “turing-02.png,” en zo op:

pdftoppm -png-turing.pdf turing

Uitvoeren van tesseract op elk beeldbestand met een enkel commando gebruiken we een for-lus. Voor elk van onze “turing-nn.png,” bestanden lopen we tesseract, en maak een tekst bestand genaamd “tekst” plus “turing-nn” als onderdeel van de naam van het afbeeldingsbestand:

voor ik in de turing-??.png; doen tesseract “$i” “text-$i” -l dut; gedaan;

Te combineren met alle tekstbestanden in één, kunnen we gebruik maken van de kat:

kat tekst-turing* > complete.txt

Dus, hoe was het? Zeer goed, zoals je hieronder kunt zien. De eerste pagina ziet er heel uitdagend, hoewel. Het heeft diverse tekst stijlen en maten en decoratie. Er is ook een verticale “watermerk” aan de rechterzijde van de pagina.

Echter, de output is dicht bij het origineel. Uiteraard is de opmaak verloren gegaan, maar de tekst is correct.

De verticale watermerk werd opgetekend als een lijn van onzinnige aan de onderkant van de pagina. De tekst is te klein om te worden gelezen door tesseract nauwkeurig, maar het zou gemakkelijk genoeg te vinden en te verwijderen. Het ergste zou dan tot gevolg hebben dat er ongewenste tekens worden aan het einde van elke lijn.

Vreemd genoeg, de enkele letters aan het begin van de lijst van vragen en antwoorden op pagina twee zijn genegeerd. Het gedeelte van de PDF is hieronder weergegeven.

Zoals je hieronder kunt zien, de vragen blijven, maar de “Q” en “A” aan het begin van elke regel werden verloren.

Diagrammen ook niet worden overgezet correct. Laten we eens kijken naar wat er gebeurt als we proberen om het uittreksel hieronder uit de Turing PDF.

Zoals u kunt zien in ons resultaat hieronder de tekens werden gelezen, maar de indeling van het schema was verloren.

Nogmaals, tesseract worstelde met de kleine omvang van de onderschriften, en zij werden weergegeven verkeerd.

In alle eerlijkheid, hoewel, het was nog steeds een goed resultaat. We waren niet in staat om te extract eenvoudige tekst, maar dit voorbeeld is bewust gekozen omdat zij een uitdaging.

Een Goede Oplossing Voor Wanneer Je Het Nodig Hebt

OCR is niet iets wat je nodig hebt voor dagelijks gebruik. Echter, wanneer de behoefte doet ontstaan, is het goed om te weten dat je een van de beste OCR-engines tot uw beschikking.

LEES VERDER

  • “De reden waarom Mensen Nog steeds Kopen Feature Phones in 2020
  • “Hoe Automatisch Leeg Je Prullenbak op een Mac
  • “Het Dupliceren van Dia’ s in Microsoft PowerPoint
  • “Microfoon Niet Werken op een Mac? Hier is Hoe Het te Repareren
  • “✨ Kunt u Gebruik maken van Emoji in bestandsnamen in Windows 10