Estrarre il Testo da file PDF e File di Immagine

Un documento PDF che si desidera estrarre tutto il testo? Che cosa circa i file di immagine di una scansione di un documento che si desidera convertire in testo modificabile? Questi sono alcuni dei problemi più comuni che ho visto sul posto di lavoro quando si lavora con i file.

In questo articolo, vi parlerò di diversi modi si può andare su cercando di estrarre il testo da un PDF o da un’immagine. I tuoi risultati di estrazione variano a seconda del tipo e della qualità del testo in formato PDF o immagine. Inoltre, i risultati possono variare a seconda dello strumento che si utilizza, quindi è meglio provare tutte le opzioni in basso possibile per ottenere i migliori risultati.

Estrarre Testo da PDF o come Immagine

Il modo più semplice e veloce per iniziare è quello di cercare online il PDF text extractor servizio. Questi sono, di norma, libero e può dare esattamente quello che stai cercando, senza dover installare nulla sul vostro computer. Qui ci sono due che ho usato con molto buona a eccellente risultati:

ExtractPDF

ExtractPDF è uno strumento gratuito per afferrare le immagini, il testo e i caratteri di un file PDF. L’unica limitazione è che la dimensione massima per il file PDF è di 10 MB. Che è un po ‘ piccola; quindi, se si dispone di un file più grande, provare alcuni degli altri metodi riportati di seguito. Scegliere il file e quindi fare clic su “Invia file pulsante. I risultati sono di solito molto veloce e si dovrebbe vedere un anteprima del testo quando si fa clic sulla scheda Testo.

È anche un bel vantaggio che ne estrae le immagini al di fuori del file PDF, nel caso in cui avete bisogno di uno di quelli! Nel complesso, lo strumento online funziona alla grande, ma ho incontrato un paio di documenti PDF che mi danno divertente uscita. Il testo è estratto proprio bene, ma per qualche motivo, non avrà una linea di interruzione dopo ogni parola! Non è un problema enorme per un breve file PDF, ma certamente un problema per i file con un sacco di testo. Se questo accade a voi, provare lo strumento successivo.

Online OCR

Online OCR di solito tendevano a lavorare per i documenti che non è stato convertito correttamente con ExtractPDF, quindi è una buona idea per cercare di entrambi i servizi per vedere quelli che ti dà una migliore uscita. Online OCR ha anche alcuni più bello di caratteristiche che possono risultare utili per chiunque con un file PDF di grandi dimensioni che ha solo bisogno di convertire il testo in poche pagine, piuttosto che l’intero documento.

La prima cosa che voglio fare è andare avanti e creare un account gratuito. E ‘un po’ fastidioso, ma se non si crea l’account gratuito, sarà solo parzialmente la conversione di un PDF piuttosto che l’intero documento. Inoltre, invece di essere solo in grado di caricare solo 5 MB documento, è possibile caricare fino a 100 mb per file con un account.

In primo luogo, scegliere una lingua e quindi scegliere il tipo di formati di output desiderato per il file convertito. Avete un paio di opzioni e si può scegliere più di una, se volete. Al di sotto di documenti di più Pagine, è possibile selezionare i numeri di Pagina e quindi scegliere solo le pagine che si desidera convertire. Quindi è possibile selezionare il file e fare clic su Converti!

Dopo la conversione, sarai portato alla sezione Documenti (se sei connesso) dove si può vedere come molti dei quali disponibili gratuitamente le pagine di sinistra e il link per scaricare il file convertito. Sembra che hai solo 25 pagine di un giorno, quindi se avete bisogno di più, dovrete aspettare un po ‘ o a comprare di più pagine.

Online OCR ha fatto un ottimo lavoro di convertire i miei file Pdf perché è stato in grado di mantenere il layout del testo. Nel mio test, ho preso un doc di Word che ha usato proiettili di caratteri di diverse dimensioni, ecc e convertito in un file PDF. Poi ho usato Online OCR per convertire in formato Word e che è stato di circa il 95% uguale all’originale. Che è abbastanza impressionante per me.

Inoltre, se si sta cercando di convertire le immagini in testo, quindi Online OCR può fare facilmente come l’estrazione di testo da file PDF.

Free Online OCR

Dato che state parlando di immagine e testo OCR, permettetemi di citare un altro buon sito web che funziona molto bene su immagini. Free Online OCR è stato molto buono e molto accurate al momento della estrazione di testo da mio immagini di prova. Ho preso un paio di foto dal mio iPhone di pagine di libri, opuscoli, ecc e mi sorpresi di quanto bene si è in grado di convertire il testo.

Scegliere il file e quindi fare clic sul pulsante Carica. Nella schermata successiva, ci sono un paio di opzioni e un’anteprima dell’immagine. Si può ritagliare se non si desidera eseguire l’OCR il tutto. Poi basta fare clic sul pulsante OCR e convertito testo verrà visualizzato sotto l’immagine di anteprima. Inoltre, non ha limiti, che è davvero bello.

In aggiunta ai servizi on-line, ci sono due freeware PDF convertitori voglio ricordare in caso hai bisogno di un software in esecuzione in locale sul vostro computer per eseguire le conversioni. Con i servizi online avrai sempre bisogno di una connessione Internet e che potrebbe non essere possibile per tutti. Tuttavia, ho notato che la qualità delle conversioni da programmi freeware erano significativamente peggiori rispetto a quelle dei siti web.

A-PDF Text Extractor

A-PDF Text Extractor è un software freeware che fa un ottimo lavoro di estrazione di testo da file PDF. Una volta scaricato ed installato, fare clic sul pulsante Apri per scegliere il vostro file PDF. Quindi fare clic su Estrai il testo per avviare il processo.

Ti chiedo un percorso per il file di output di testo e poi iniziare l’estrazione. È anche possibile fare clic sull’ Opzione pulsante, che consente di scegliere solo alcune pagine, per estrarre l’estrazione tipo. La seconda opzione è interessante perché si estrae il testo in diversi formati e vale la pena di provare tutti e tre per vedere quelli che ti dà il miglior risultato.

PDF2Text Pilota

PDF2Text Pilota fa un buon lavoro di estrazione del testo. Non ha tutte le opzioni, basta aggiungere i file o le cartelle, la conversione e sperare per il meglio. Ha funzionato bene su alcuni file Pdf, ma per la maggior parte di loro, ci sono stati numerosi problemi.

Basta fare clic su Aggiungi File e quindi fare clic su Converti. Una volta che la conversione è completa, fare clic su Sfoglia per aprire il file. Chilometraggio varia utilizzo di questo programma, quindi non aspettatevi molto.

Inoltre, vale la pena ricordare che se si è in un ambiente aziendale o di mettere le mani su una copia di Adobe Acrobat da lavoro, allora si può davvero ottenere risultati molto migliori. Acrobat ovviamente non è gratis, ma ha delle opzioni per la conversione da PDF a Word, Excel e in formato HTML. Lo fa anche il lavoro migliore di mantenere la struttura del documento originale e la conversione di testo complicato.


Posted

in

by

Tags: