Extrahera Text från PDF-Filer och bildfiler

0
377

Har ett PDF-dokument som du vill extrahera all text ut? Vad om bildfiler av en skannade dokumentet som du vill konvertera till redigerbar text? Dessa är några av de vanligaste frågor som jag har sett på arbetsplatsen när de arbetar med filer.

I denna artikel kommer jag att tala om flera olika sätt du kan gå om att försöka extrahera text från en PDF eller en bild. Utvinning resultat kommer att variera beroende på typ och kvalitet av texten i PDF-dokumentet eller bilden. Även dina resultat kommer att variera beroende på det verktyg du använder, så det är bäst att prova så många av alternativen nedan som möjligt för att få bästa resultat.

Extrahera Text från Bild eller PDF

Det enklaste och snabbaste sättet att börja är att prova en online-PDF-sms: a extractor service. Dessa är normalt gratis och kan ge dig precis vad du letar efter utan att behöva installera något på din dator. Här är två som jag har använt med mycket bra till mycket bra resultat:

ExtractPDF

ExtractPDF är ett gratis verktyg för att fånga bilder, text och teckensnitt av en PDF-fil. Den enda begränsningen är att den max storlek på PDF-filen är 10 MB. Det är lite små, så om du har en större fil, prova några av de andra metoderna nedan. Välj filen och klicka sedan på Skicka fil – knappen. Resultaten är normalt mycket snabbt och du bör se en förhandsvisning av den text när du klickar på fliken Text.

Det är också en bra fördelen att det extrakt bilder ur PDF-fil också, ifall du behöver dem! Generellt, online-verktyg fungerar bra, men jag har kört i ett par av PDF-dokument som ger mig rolig utgång. Texten är hämtad bara bra, men av någon anledning kommer det ha en radbrytning efter varje ord! Inte ett stort problem för en kort PDF-fil, men säkert en fråga för filer med massor av text. Om det händer, försök nästa verktyg.

Online OCR

Online OCR oftast tenderat att arbeta för de handlingar som inte genomförde en omvandling på rätt sätt med ExtractPDF, så det är en bra idé att prova på både tjänster för att se vilka som ger dig bättre utgång. Online OCR har också några trevligare funktioner som kan vara praktiskt för alla med en stor PDF-fil som endast behöver för att konvertera text på ett par sidor snarare än hela dokumentet.

Det första du vill göra är att gå vidare och skapa ett gratis konto. Det är lite irriterande, men om du inte skapa gratis konto, det kommer bara delvis konvertera dina PDF-snarare än hela dokumentet. Också, istället för att bara kunna ladda upp bara en 5 MB dokument kan du ladda upp till 100 mb per fil med ett konto.

Först väljer du ett språk och sedan välja den typ av output format du vill använda för den konverterade filen. Du har ett par alternativ och du kan välja mer än en om du vill. Under Flersidiga dokumentkan du välja sidnummer och sedan välja endast de sidor som du vill konvertera. Sedan väljer du den filen och klicka på Konvertera!

Efter konvertering, kommer du att föras till Dokument avsnitt (om du är inloggad) där du kan se hur många som finns tillgängliga gratis sidor du har kvar och länkar för att ladda ner dina konverterade filer. Det verkar som om du bara har 25 sidor för gratis en dag, så om du behöver mer än så, måste du antingen vänta lite eller köpa fler sidor.

Online OCR gjorde ett utmärkt jobb med att konvertera min Pdf-filer eftersom det kunde behålla den faktiska utformningen av texten. I mitt test, jag tog ett Word-dokument som används kulor, olika teckensnitt, storlekar etc och omvandlas den till en PDF. Då jag använde Online OCR för att omvandla det tillbaka till Word-format och det var ca 95% samma som originalet. Det är ganska imponerande för mig.

Plus, om du funderar på att konvertera en bild till text, för att sedan Online OCR kan göra det lika lätt som extrahering av text från PDF-filer.

Gratis Online OCR

Sedan talade om bilden till text med OCR, låt mig nämna en annan bra hemsida som fungerar riktigt bra på bilder. Gratis Online OCR var mycket bra och mycket noggrann vid extrahering av text från mina testbilder. Jag tog ett par foton från min iPhone sidor från böcker, broschyrer, etc, och jag blev förvånad över hur bra det var att kunna omvandla text.

Välj filen och klicka sedan på Ladda upp knappen. På nästa skärm, det finns ett par alternativ och en förhandsgranskning av bilden. Du kan beskära den om du inte vill OCR det hela. Sedan är det bara att klicka på OCR-knappen och dina konverterade texten visas under förhandsgranskningen. Det är också inte har några begränsningar, vilket är riktigt trevligt.

Förutom online-tjänster finns det två freeware PDF-konverterare jag vill nämna i det fall att du behöver programvara som körs lokalt på din dator för att utföra omvandlingar. Med online-tjänster, du kommer alltid att behöva en internetanslutning och det kan inte vara möjligt för alla. Men jag märkte att kvaliteten på de omvandlingar från freeware-program som var betydligt sämre än för webbplatser.

A-PDF Text Extractor

A-PDF Text Extractor är ett gratisprogram som gör ett ganska bra jobb med att extrahera text från PDF-filer. När du ladda ner det och installera det, klicka på knappen Öppna för att välja din PDF-fil. Klicka sedan på Extrahera text för att starta processen.

Det kommer att fråga dig en plats för att lagra text output-fil och sedan kommer det att börja utvinna. Du kan också klicka på Alternativ – knappen, som låter dig välja endast vissa sidor för att extrahera och utvinning typ. Det andra alternativet är intressant eftersom det extraherar text i olika layouter och det är värt att försöka med alla tre för att se vilka som ger bäst resultat.

PDF2Text Pilot

PDF2Text Pilot gör ett ok jobb med att extrahera text. Att det inte har något val, du bara lägga till filer eller mappar, konvertera och hoppas på det bästa. Det fungerade bra på vissa Pdf-filer, men för majoriteten av dem, det var många frågor.

Bara klicka på Lägg till Filer och klicka sedan på Konvertera. När konverteringen är klar, klicka på Bläddra för att öppna filen. Du körsträcka kommer att variera med hjälp av detta program, så förvänta dig inte mycket.

Det är också värt att nämna att om du är i en företagsmiljö eller kan få tag på en kopia av Adobe Acrobat från jobbet, då kan du verkligen få mycket bättre resultat. Acrobat är naturligtvis inte gratis, men det finns alternativ för att konvertera PDF till Word, Excel och HTML-format. Det gör också det bästa jobbet för att upprätthålla den struktur av det ursprungliga dokumentet och konvertera komplicerad text.