Avoir un document PDF ou une image que vous souhaitez convertir en texte? Récemment, quelqu’un m’a envoyé par la poste un document que j’avais besoin de le modifier et de le renvoyer avec les corrections. La personne ne pouvait pas localiser une copie numérique, j’ai donc été chargé d’obtenir tous que le texte en format numérique.
Il n’y avait pas moyen que j’allais passer des heures à taper tout le dos, donc j’ai fini par prendre une belle haute qualité d’image du document, puis brûlé mon chemin à travers un tas de en ligne des services de ROC de voir que l’on me donnerait les meilleurs résultats.
Dans cet article, je vais passer par un couple de mes sites préférés pour OCR gratuits. Il est intéressant de noter que la plupart de ces sites sont un service gratuit et porté des options si vous voulez des fonctionnalités supplémentaires telles que les images plus grandes, PDF multi-pages de documents, de différentes langues d’entrée, etc.
Il est également bon de savoir à l’avance que la plupart de ces services ne sera pas en mesure de respecter la mise en forme de votre document original. Ce sont principalement pour l’extraction de texte et c’est tout. Si vous avez besoin que tout soit dans une mise en page spécifique ou de format, vous devrez manuellement le faire une fois que vous obtenez tout le texte de l’OCR.
En outre, les meilleurs résultats pour obtenir le texte viendra à partir de documents avec un 200 à 400 DPI de résolution. Si vous avez un faible DPI de l’image, le résultat ne sera pas aussi bonne.
Enfin, il y avait beaucoup de sites que j’ai testé qui n’a tout simplement pas de travail. Si vous Google gratuit en ligne OCR, vous verrez un tas de sites, mais plusieurs de ces sites dans le top 10 des résultats n’ai même pas terminer la conversion. Certains temps, les autres seraient des erreurs et certains juste coincé sur la “conversion” de la page, donc je n’ai même pas pris la peine de mentionner ces sites.
Pour chaque site, j’ai testé les deux documents afin de voir comment la sortie. Pour mes tests, j’ai simplement utilisé mon iPhone 5S pour prendre une photo de ces deux documents, puis de les charger directement sur les sites internet pour la conversion.
Dans le cas où vous voulez voir les images regardé comme ça que j’ai utilisé pour mon test, j’ai joint ici: Test1 et Test2. Notez que ce ne sont pas les pleines versions de résolution des images prises à partir du téléphone. J’ai utilisé la pleine résolution de l’image lors du téléchargement sur les sites.
OnlineOCR
OnlineOCR.net est un pur et simple du site qui a livré de très bons résultats dans mon test. La principale chose que j’aime c’est qu’il n’a pas des tonnes de toutes les annonces de l’endroit, qui est généralement le cas avec ces sortes de niche sites de service.
Pour commencer, sélectionnez votre fichier et attendre jusqu’à ce qu’il termine le téléchargement. La max la taille du téléchargement de ce site est de 100 MO. Si vous vous inscrivez pour un compte gratuit, vous obtenez quelques fonctionnalités supplémentaires comme la plus grande taille de téléchargement, Pdf multipages, différentes langues d’entrée, plus de conversions par heure, etc.
Ensuite, choisissez votre langue de saisie, puis choisissez le format de sortie. Vous pouvez choisir à partir de Word, Excel ou Texte Brut. Cliquez sur le Convertir en bouton et vous verrez le texte affiché en bas dans une boîte avec un lien de téléchargement.
Si tout ce que vous voulez, c’est le texte, il suffit de copier et coller à partir de la boîte. Cependant, je vous suggère de télécharger le document Word car il est étonnamment excellent travail de garder la mise en page du document original.
Par exemple, quand j’ai ouvert le document Word pour mon deuxième essai, j’ai été surpris de constater que le document comportait un tableau avec trois colonnes, comme dans l’image.
De tous les sites, celui-ci était de loin le meilleur. Il vaut la peine de l’inscription pour si vous avez besoin de faire beaucoup de conversions.
Pour être complet, je suis également un lien vers les fichiers de sortie créé par chaque service, de sorte que vous pouvez voir les résultats pour vous-même. Voici les résultats de OnlineOCR: Test1 Doc et Test2 Doc.
Notez que lors de l’ouverture de ces documents Word sur votre ordinateur, vous recevrez un message dans Word en indiquant que c’est à partir de l’Internet et de l’édition a été désactivé. C’est parfaitement OK parce que le Mot n’a pas la confiance de documents depuis Internet et vous n’avez vraiment pas à activer la mise à jour si vous voulez juste pour afficher le document.
i2OCR
Un autre site qui a donné d’assez bons résultats a été i2OCR. Le processus est très similaire: choisissez votre langue de fichier, puis appuyez sur un Extrait du Texte.
Vous devrez attendre une minute ou deux ici parce que ce site prend un peu plus longtemps. Aussi, dans l’Étape 2, assurez-vous que votre image est en montrant en haut à droite dans la fenêtre d’aperçu, sinon vous obtiendrez un tas de charabia en sortie. Pour une raison quelconque, les images à partir de mon iPhone montraient en mode portrait, sur mon ordinateur, mais le paysage quand j’ai mis en ligne sur ce site.
J’ai dû ouvrir manuellement l’image en retouche photo app, le faire pivoter de 90 degrés, puis tourner de nouveau à portrait et ensuite l’enregistrer de nouveau. Une fois terminé, faites défiler vers le bas et il va vous montrer un aperçu du texte avec un bouton de téléchargement.
Ce site en sort assez bien avec la sortie pour le premier test, mais n’a pas tellement bien avec le second test qui avait la disposition des colonnes. Voici les résultats de i2OCR: Test1 Doc et Test2 Doc.
FreeOCR
Free-OCR.com permettra de prendre vos images et de les convertir en texte brut. Il n’a pas une option pour exporter au format Word. Choisissez votre fichier, sélectionnez une langue, puis cliquez sur Démarrer.
Le site est rapide et vous aurez le résultat assez rapidement. Cliquez simplement sur le lien pour télécharger le fichier texte sur votre ordinateur.
Comme avec NewOCR mentionnés ci-après, ce site met toutes les T dans le document. Je n’ai aucune idée de pourquoi il le ferait, mais pour une raison étrange, ce site et NewOCR les deux l’ont fait. C’est pas un gros problème pour le changer, mais c’est un processus fastidieux, vous ne devriez vraiment pas avoir à le faire.
Voici les résultats de FreeOCR: Test1 Doc et Test2 Doc.
ABBYY FineReader Online
Afin d’utiliser FineReader en Ligne, vous devez vous inscrire pour un compte, qui vous amène en 15 jours d’essai gratuit de OCR jusqu’à 10 pages gratuitement. Si vous avez seulement besoin de faire un OCR pour un couple de pages, alors vous pouvez utiliser ce service. Assurez-vous que vous cliquez sur vérifier le lien dans l’e-mail de confirmation après votre inscription.
Cliquez sur Reconnaître en haut, puis cliquez sur Télécharger pour sélectionner votre fichier. Choisissez votre langue, le format de sortie puis cliquez sur Reconnaître au fond. Ce site dispose d’une interface propre et sans publicité.
Dans mes tests, ce site a été en mesure de saisir le texte à partir du premier document de test, mais c’était absolument énorme lorsque j’ai ouvert Word doc, j’ai donc fini par le faire à nouveau et en choisissant Texte Brut comme format de sortie.
Pour le deuxième test, avec les colonnes, le document Word était vide et je ne pouvais même pas trouver le texte. Pas sûr de ce qui s’y passe, mais il ne semble pas être en mesure de gérer quoi que ce soit d’autres que de simples paragraphes. Voici les résultats de FineReader: Test1 Doc et Test2 Doc.
NewOCR
Le site suivant, NewOCR.com était OK, mais pas aussi bon que le premier site. Tout d’abord, il y a des annonces, mais heureusement pas une tonne. Vous devez d’abord sélectionner votre fichier puis cliquez sur l’ Aperçu de bouton.
Vous pouvez alors faire pivoter l’image et ajuster la zone où vous voulez numériser du texte. C’est à peu près un peu comme la façon dont le processus de numérisation des œuvres sur un ordinateur avec un scanner connecté.
Si le document comporte plusieurs colonnes, vous pouvez vérifier la mise en Page de l’analyse de bouton et il va essayer de scinder le texte en colonnes. Cliquez sur le bouton ROC, attendre quelques secondes pour qu’il complète, puis faites défiler vers le bas lors de l’actualisation de la page.
Dans le premier essai, il a obtenu tout le texte correctement, mais pour une raison quelconque capitalisées chaque T dans le document! Aucune idée de pourquoi il le ferait, mais il l’a fait. Dans le deuxième test, avec une analyse de page est activé, il a obtenu la plupart du texte, mais la mise en page a été complètement éteint.
Voici les résultats de NewOCR: Test1 Doc et Test2 Doc.
Conclusion
Comme vous pouvez le voir, libre, ce n’est pas vraiment vous donner de très bons résultats la plupart du temps, malheureusement. Le premier site mentionné est de loin le meilleur, car non seulement il font un excellent travail de reconnaissance de tout le texte, il a aussi réussi à conserver le format du document original.
Si vous avez juste besoin de texte, même si, la plupart des sites web ci-dessus devraient être en mesure de le faire pour vous. Si vous avez des questions, n’hésitez pas à commenter. Profitez-en!