Extraire du Texte des PDF et des Fichiers d’Image

0
465

Avoir un document PDF que vous souhaitez extraire tout le texte? Quid des fichiers d’image numérisée du document que vous souhaitez convertir en texte modifiable? Ce sont certaines des questions les plus courantes que j’ai vu sur le lieu de travail lorsque vous travaillez avec des fichiers.

Dans cet article, je vais vous parler de plusieurs façons différentes que vous pouvez essayer d’extraire du texte d’un PDF ou d’une image. Votre extraction de résultats varient selon le type et la qualité du texte dans le fichier PDF ou une image. Aussi, vos résultats peuvent varier en fonction de l’outil que vous utilisez, il est donc préférable d’essayer que de nombreuses options ci-dessous pour obtenir les meilleurs résultats.

Extraire le Texte de l’Image ou PDF

La plus simple et la plus rapide façon de commencer est d’essayer en ligne PDF text extractor service. Ceux-ci sont normalement gratuit et peut vous donner exactement ce que vous cherchez sans avoir à installer quoi que ce soit sur votre ordinateur. Voici deux que j’ai utilisé avec de très bons à excellents résultats:

ExtractPDF

ExtractPDF est un outil gratuit pour saisir des images, du texte et des polices de caractères d’un fichier PDF. La seule limitation est que la taille maximale du fichier PDF est de 10 MO. C’est un peu petit; donc, si vous avez un gros fichier, essayez l’une des autres méthodes ci-dessous. Choisissez votre fichier, puis cliquez sur Envoyer un fichier bouton. Les résultats sont normalement très rapide et vous devriez voir un aperçu du texte lorsque vous cliquez sur l’onglet Texte.

C’est aussi un bel avantage supplémentaire qu’il extrait les images du fichier PDF trop, juste au cas où vous avez besoin de ces! Dans l’ensemble, l’outil en ligne fonctionne très bien, mais j’ai couru dans un couple de PDF docs qui me donnent de drôles de sortie. Le texte est extrait, mais pour quelque raison il va avoir un saut de ligne après chaque mot! Pas un énorme problème pour un court laps de fichier PDF, mais certainement un problème pour les fichiers avec beaucoup de texte. Si cela vous arrive, essayez de l’outil suivant.

En ligne OCR

En ligne OCR généralement tendance à travailler pour les documents qui ne convertit pas correctement avec ExtractPDF, c’est donc une bonne idée d’essayer les deux services pour voir ceux qui vous donne une meilleure sortie. En ligne OCR a aussi le beau fonctionnalités qui peut s’avérer pratique pour n’importe qui avec un fichier PDF volumineux qui ne doit convertir le texte en quelques pages plutôt que l’ensemble du document.

La première chose que vous voulez faire est d’aller de l’avant et de créer un compte gratuit. C’est un peu ennuyeux, mais si vous n’avez pas à créer le compte gratuit, il ne sera que partiellement convertir votre fichier PDF plutôt que de l’ensemble du document. Aussi, au lieu de n’être en mesure de télécharger à seulement 5 MO document, vous pouvez télécharger jusqu’à 100 mo par fichier avec un compte.

Tout d’abord, sélectionnez une langue, puis choisissez le type de formats de sortie pour le fichier converti. Vous avez deux options et vous pouvez choisir plus d’un si vous le souhaitez. En vertu de document de plusieurs Pages, vous pouvez sélectionner les numéros de Page et choisissez seulement les pages que vous souhaitez convertir. Ensuite, vous sélectionnez le fichier et cliquez sur Convertir!

Après la conversion, vous serez amené à la section Documents (si vous êtes connecté) où vous pouvez voir comment beaucoup de disponibles gratuit pages que vous avez quitté et des liens pour télécharger vos fichiers convertis. Il semble que vous n’avez 25 pages pour gratuit un jour, donc si vous avez besoin de plus que cela, vous devrez soit attendre un peu ou d’acheter plus de pages.

En ligne OCR a fait un excellent travail de convertir mes fichiers Pdf, car il a été en mesure de maintenir la forme du texte. Dans mon test, j’ai pris un doc Word qui ont utilisé des balles, des tailles de police différentes, etc et l’a converti en un fichier PDF. Ensuite, j’ai utilisé en Ligne de l’OCR pour convertir au format Word et il était d’environ 95%, le même que l’original. C’est assez impressionnant pour moi.

De Plus, si vous êtes à la recherche pour convertir une image en texte, puis en Ligne OCR peut le faire tout aussi facilement que l’extraction de texte à partir de fichiers PDF.

Gratuit en Ligne OCR

Depuis parlions, image, texte, OCR, permettez-moi de mentionner un autre bon site web qui fonctionne très bien sur les images. Free Online OCR est très bon et très précis lors de l’extraction de texte à partir de mes images de test. J’ai pris quelques photos de mon iPhone de pages de livres, brochures, etc, et j’ai été surpris de voir à quel point il a été en mesure de convertir le texte.

Choisissez votre fichier, puis cliquez sur le bouton de Téléchargement. Sur l’écran suivant, il ya un couple d’options et un aperçu de l’image. Vous pouvez la recadrer si vous ne voulez pas de ROC de la chose entière. Ensuite, cliquez simplement sur le bouton d’OCR et votre texte converti apparaît en dessous de l’aperçu de l’image. Il également n’ont pas de limites, ce qui est vraiment agréable.

En plus des services en ligne, il y a deux freeware PDF convertisseurs, je tiens à mentionner dans le cas où vous avez besoin d’un logiciel exécuté localement sur votre ordinateur pour effectuer les conversions. Avec les services en ligne, vous aurez toujours besoin d’une connexion Internet et qui peut ne pas être possible pour tout le monde. Cependant, j’ai remarqué que la qualité de conversion de la freeware programmes ont été significativement plus mauvais que ceux des sites web.

A-PDF Text Extractor

A-PDF Text Extractor est un freeware qui fait un assez bon travail de l’extraction de texte à partir de fichiers PDF. Une fois que vous télécharger et l’installer, cliquez sur le bouton “Ouvrir” pour choisir votre fichier PDF. Ensuite cliquez sur Extraire du texte pour démarrer le processus.

Il vous demandera de vous un emplacement pour stocker le fichier texte de sortie et puis il va commencer à extraire. Vous pouvez également cliquer sur l’ Option de bouton, ce qui vous permet de sélectionner uniquement certaines pages à extraire et le type d’extraction. La deuxième option est intéressante car elle extrait le texte dans différentes mises en page, et il vaut la peine d’essayer tous les trois pour voir ceux qui vous donne le meilleur rendement.

PDF2Text Pilote

PDF2Text Pilote fait un ok de travail de l’extraction de texte. Il n’a pas toutes les options; il suffit d’ajouter des fichiers ou des dossiers, de convertir et de l’espoir pour le meilleur. Il a bien fonctionné sur certains fichiers Pdf, mais pour la majorité d’entre eux, il y avait de nombreux problèmes.

Juste cliquez sur Ajouter des Fichiers, puis cliquez sur Convertir. Une fois la conversion terminée, cliquez sur Parcourir pour ouvrir le fichier. Vous kilométrage peut varier à l’aide de ce programme, donc ne vous attendez pas à beaucoup.

Aussi, il est intéressant de mentionner que si vous êtes dans un environnement d’entreprise ou pouvez obtenir vos mains sur une copie du logiciel Adobe Acrobat de travail, alors vous pouvez vraiment obtenir de bien meilleurs résultats. Acrobat est évidemment pas gratuit, mais il a des options pour convertir des fichiers PDF à Word, Excel et au format HTML. Il a également fait le meilleur travail de maintien de la structure du document original et la conversion de texte compliqué.