Trekke ut Tekst fra PDF-og bildefiler

0
420

Har et PDF-dokument som du ønsker å trekke ut all tekst ut av? Hva om image filer av et skannet dokument som du ønsker å konvertere til redigerbar tekst? Disse er noen av de vanligste spørsmålene jeg har sett på arbeidsplassen når du arbeider med filer.

I denne artikkelen vil jeg snakke om flere forskjellige måter du kan gå om å prøve å trekke ut tekst fra en PDF-fil eller fra et bilde. Din utvinning resultatene vil variere avhengig av type og kvalitet på tekst i PDF eller bilde. Også, vil resultatene variere avhengig av hvilket verktøy du bruker, så det er best å prøve ut så mange av alternativene nedenfor som mulig for å få de beste resultatene.

Trekke ut Tekst fra Bilde eller PDF

Den enkleste og raskeste måten å starte på er å prøve en online PDF tekst extractor service. Disse er normalt gratis, og kan gi deg akkurat det du er ute etter uten å måtte installere noe på din datamaskin. Her er to som jeg har brukt med svært god til svært gode resultater:

ExtractPDF

ExtractPDF er et gratis verktøy for å ta bilder, tekst og fonter ut av en PDF-fil. Den eneste begrensningen er at maks størrelse for PDF-filen er 10 MB. Det er litt for lite, så hvis du har en større fil, kan du prøve noen av de andre metodene nedenfor. Velg filen, og klikk deretter Send fil – knappen. Resultatene er normalt veldig fort og du bør se en forhåndsvisning av tekst når du klikker på kategorien Tekst.

Det er også en fin ekstra fordel at det trekker ut bilder ut av PDF-fil også, bare i tilfelle du trenger dem! Totalt sett online verktøy som fungerer bra, men jeg har kjørt inn i et par av PDF-dokumenter som gir meg morsom effekt. Teksten er hentet helt fint, men for noen grunn vil det ha et linjeskift etter hvert ord! Ikke et stort problem for en kort PDF-fil, men absolutt et problem for filer med mye tekst. Hvis dette skjer, prøver du den neste verktøyet.

Online OCR

Online OCR vanligvis en tendens til å arbeide for dokumenter som ikke har konvertert riktig med ExtractPDF, så det er en god idé å prøve både tjenester for å se hvilke som gir deg bedre utgang. Online OCR har også noen bedre funksjoner som kan vise seg nyttig for alle med en stor PDF-fil som bare trenger å konvertere teksten på et par sider snarere enn hele dokumentet.

Det første du vil gjøre er å gå videre og opprette en gratis konto. Det er litt irriterende, men hvis du ikke opprette en gratis konto, det vil bare delvis konvertere PDF-snarere enn hele dokumentet. Også, i stedet for bare å være i stand til å laste opp bare en 5 MB dokument, kan du laste opp opptil 100 MB per fil med en konto.

Først, velg et språk, og deretter velge type output formater du ønsker for den konverterte filen. Du har et par alternativer, og du kan velge mer enn ett hvis du vil. Under dokument, kan du velge sidetall og deretter velger kun de sidene som du ønsker å konvertere. Deretter velger du fil og deretter Konvertere!

Etter konvertering, vil du bli brakt til Dokumenter delen (hvis du er logget inn) hvor du kan se hvor mange gratis tilgjengelig sider du har igjen og lenker til å laste ned de konverterte filene. Det virker som du bare har 25 sider for fri en dag, så hvis du trenger mer enn det, må du enten vente litt, eller kjøpe flere sider.

Online OCR gjorde en utmerket jobb med å konvertere min Pdf-filer, fordi det var i stand til å opprettholde den faktiske utformingen av teksten. I min test, jeg tok et Word-dokument (doc) som brukes kuler, forskjellige skriftstørrelser, etc og konvertere det til et PDF-dokument. Da jeg brukte Online OCR for å konvertere det tilbake til Word-format og det var ca 95% den samme som den originale. Det er ganske imponerende for meg.

Pluss, hvis du ønsker å konvertere et bilde til tekst, deretter Online OCR kan gjøre det like enkelt som å trekke ut tekst fra PDF-filer.

Gratis Online OCR

Siden vi snakker om bilde til tekst for OCR, la meg nevne en annen god nettside som fungerer veldig godt på bilder. Gratis Online OCR var veldig god og veldig nøyaktig når det gjelder å trekke ut tekst fra min test bilder. Jeg tok et par bilder fra min iPhone sider fra bøker, hefter, etc, og jeg ble overrasket over hvor godt det var i stand til å konvertere tekst.

Velg filen, og klikk deretter på last opp-knappen. På neste skjermbilde, det er et par alternativer og en forhåndsvisning av bildet. Du kan beskjære det, hvis du ikke ønsker å gjøre hele greia. Deretter klikker du bare på OCR-knappen og den konverterte teksten vil vises under forhåndsvisningen. Det er også ikke har noen begrensninger, som er veldig hyggelig.

I tillegg til den elektroniske tjenester, det er to freeware PDF omformere jeg ønsker å nevne i tilfelle du trenger programvare som kjører lokalt på din datamaskin for å utføre konverteringer. Med online-tjenester, du vil alltid ha en Internett-tilkobling, og det kan ikke være mulig for alle. Men, la jeg merke til at kvaliteten på konverteringer fra freeware program var betydelig verre enn de av nettsteder.

A-PDF Text Extractor

A-PDF Text Extractor er freeware som gjør en ganske god jobb med å trekke ut tekst fra PDF-filer. Når du laster den ned og installere den, klikker du på Åpne-knappen for å velge din PDF-fil. Klikk deretter Trekke ut tekst for å starte prosessen.

Det vil stille deg et sted å lagre tekst output filen, og deretter vil det begynne å trekke. Du kan også klikke på Option – knappen, som lar deg velge bare visse sider til å trekke ut og utvinning type. Det andre alternativet er interessant fordi det trekker ut tekst i ulike utforminger og det er verdt å prøve alle tre for å se hvilke som gir deg den beste produksjon.

PDF2Text Pilot

PDF2Text Pilot gjør en ok jobb med å trekke ut tekst. Det har ikke noe valg, du må bare legge til filer eller mapper, konvertere og håpe på det beste. Det fungerte bra på noen Pdf-filer, men for de fleste av dem, det var mange problemer.

Bare klikk på Legg til Filer, og klikk deretter Konvertere. Når konverteringen er fullført, klikker du på Bla gjennom for å åpne filen. Du kjørelengde vil variere ved å bruke dette programmet så ikke forvent mye.

Det er også verdt å nevne at hvis du er i et bedriftsmiljø eller kan komme i hendene på en kopi av Adobe Acrobat fra jobb, så kan du virkelig få mye bedre resultater. Acrobat er selvsagt ikke gratis, men det har alternativer for å konvertere PDF til Word -, Excel-og HTML-format. Det også gjør den beste jobben med å vedlikeholde strukturen av det opprinnelige dokumentet og konvertere komplisert tekst.