Extrahieren von Text aus PDF-und Bild-Dateien

0
495

Haben Sie ein PDF-Dokument, dass Sie möchten, zu extrahieren alle den text aus? Was ist mit image-Dateien in einem gescannten Dokument, das Sie konvertieren möchten, in bearbeitbaren text? Dies sind einige der häufigsten Fragen, die ich gesehen habe am Arbeitsplatz bei der Arbeit mit Dateien.

In diesem Artikel werde ich sprechen über verschiedene Möglichkeiten, wie Sie gehen können, zu versuchen, zu extrahieren text aus einem PDF oder aus einem Bild. Ihre Extraktion Ergebnisse variieren je nach Art und Qualität des Textes im PDF-oder Bild. Auch Ihre Ergebnisse können variieren je nach Werkzeug, das Sie verwenden, so ist es am besten, um zu versuchen, so viele der Optionen, die unten wie möglich zu Holen Sie sich die besten Ergebnisse.

Extrahieren von Text aus einem Bild oder PDF

Der einfachste und Schnellste Weg zu beginnen ist, um zu versuchen, eine online-PDF text extractor-service. Diese sind in der Regel kostenlos und kann Ihnen genau das, was Sie suchen, ohne zu müssen, alles auf Ihrem computer installieren. Hier sind zwei, die ich verwendet haben mit guten und sehr guten Ergebnissen:

ExtractPDF

ExtractPDF ist ein kostenloses tool zum packen Bilder, Texte und Schriften aus einer PDF-Datei. Die einzige Einschränkung ist, dass die max-Größe für die PDF-Datei ist 10 MB. Das ist ein bisschen klein, so wenn Sie eine größere Datei, die versuchen, einige der anderen Methoden unten. Wählen Sie Ihre Datei und klicken Sie dann auf die Datei Senden – Taste. Die Ergebnisse sind in der Regel sehr schnell, und Sie sollten sehen, eine Vorschau von dem text, wenn Sie klicken Sie auf die Registerkarte “Text”.

Es ist auch ein netter Vorteil, dass es extrahiert Bilder aus PDF-Datei zu, nur für den Fall, Sie brauchen diese! Insgesamt ist das online-tool funktioniert Super, aber ich habe ein paar PDF-docs, die mir komisch Ausgabe. Der text extrahiert wird gerade in Ordnung, aber für einige Grund es ‘ ll haben ein Zeilenumbruch nach jedem Wort! Nicht ein riesiges problem für eine kurze PDF-Datei, aber sicherlich ein Thema für Dateien mit sehr viel text. Wenn das passiert, versuchen Sie doch das nächste Werkzeug.

Online OCR

Online-OCR in der Regel eher arbeiten für die Dokumente, die nicht ordnungsgemäß konvertiert mit ExtractPDF, so ist es eine gute Idee, zu versuchen, beide Dienste zu sehen, welche Ihnen eine bessere Leistung. Online OCR hat auch einige nettere features, die beweisen, handlich für jeden, der eine große PDF-Datei, die nur noch zum umwandeln von text auf ein paar Seiten, anstatt das gesamte Dokument.

Das erste, was Sie tun möchten, ist gehen Sie vor und erstellen Sie ein kostenloses Konto. Es ist ein wenig ärgerlich, aber wenn Sie es nicht schaffen die kostenloses Konto, es wird nur teilweise konvertieren Sie Ihre PDF-Datei, anstatt das gesamte Dokument. Auch, anstatt nur in der Lage, nur ein upload einer 5 MB-Dokument, können Sie hochladen bis zu 100MB pro Datei mit einem Konto.

Zuerst wählen Sie eine Sprache aus, und wählen Sie anschließend die Art der output-Formate, die Sie möchten für die konvertierte Datei. Sie haben ein paar Optionen und Sie können wählen, mehr als ein, wenn Sie mögen. Unter Mehrseitiges Dokument, können Sie wählen, Seitenzahlen und wählen Sie dann nur die Seiten, die Sie konvertieren möchten. Dann wählen Sie die Datei und klicken Sie auf Konvertieren!

Nach der Konvertierung werden Sie gebracht, um Sie dem Abschnitt “Dokumente” (falls Sie angemeldet sind) können Sie sehen, wo wie viele freie Seiten haben Sie Links und download-links zu Ihren konvertierten Dateien. Es scheint, dass Sie nur 25 Seiten kostenlos einen Tag, so dass, wenn Sie mehr benötigen, müssen Sie entweder noch ein bisschen warten, oder kaufen Sie mehr Seiten.

Online OCR hat einen tollen job der Konvertierung meiner PDFs, weil es in der Lage war zu halten die tatsächliche layout des Textes. In meinen test nahm ich ein Word-doc, dass die verwendeten Kugeln, verschiedene Schriftgrößen, etc und konvertiert es in ein PDF. Dann habe ich Online OCR zu konvertieren zurück zu Word-format und es war zu 95% das gleiche wie das original. Das ist ziemlich beeindruckend für mich.

Plus, wenn Sie schauen, um ein Bild zu konvertieren, um text, dann Online OCR machen kann, die ebenso einfach wie die Extraktion von text aus PDF-Dateien.

Free Online OCR

Seitdem waren reden über image to text-OCR, lassen Sie mich erwähnen, eine weitere gute website, die funktioniert wirklich gut auf den Bildern. Kostenlose Online-OCR-war sehr gut und sehr genau, wenn das extrahieren von text aus meiner test-Bilder. Ich nahm ein paar Fotos von meinem iPhone von Seiten von Bücher, Broschüren, etc, und ich war überrascht, wie gut es war in der Lage, um den text zu konvertieren.

Wählen Sie Ihre Datei und klicken Sie dann auf die Schaltfläche “Hochladen”. Auf dem nächsten Bildschirm, es gibt ein paar Optionen und eine Vorschau des Bildes. Sie können Bilder zuschneiden, wenn Sie nicht wollen, um OCR das ganze. Dann klicken Sie einfach auf die OCR-Taste und der konvertierte text erscheint unter dem Bild eine Vorschau. Es spielt auch keine Einschränkungen, das ist wirklich nett.

Zusätzlich zu den online-services gibt es zwei freeware-PDF-Konverter, den ich erwähnen möchte, in Fall müssen Sie die software läuft lokal auf Ihrem computer, um die Konvertierung ausführen. Mit online-services, Sie brauchen immer eine Internet-Verbindung, und möglicherweise nicht für jeden möglich sein. Allerdings ist mir aufgefallen, dass die Qualität der Konvertierungen von die freeware-Programme waren deutlich schlechter als jene der Seiten.

A-PDF Text Extractor

A-PDF Text Extractor ist freeware und macht einen ziemlich guten job, der Extrahierung von text aus PDF-Dateien. Sobald Sie herunterladen und installieren Sie Sie, klicken Sie auf die Schaltfläche Öffnen und wählen Sie Ihre PDF-Datei. Klicken Sie dann auf Extrahieren von text, um den Prozess zu starten.

Es wird Sie bitten, einen Speicherort zum speichern der text-Ausgabe-Datei und dann wird es beginnen die Extraktion. Sie können auch klicken Sie auf die Option – Taste, können Sie wählen, nur bestimmte Seiten zu extrahieren und das Extrakt geben. Die zweite option ist interessant, weil es extrahiert den text in verschiedenen layouts und es ist einen Versuch Wert alle drei zu sehen, welche bietet Ihnen die beste Leistung.

PDF2Text Pilot

PDF2Text Pilot macht ein ok-job, der Extrahierung von text. Es hat keine Optionen; fügen Sie einfach Dateien oder Ordner, konvertieren und auf das beste hoffen. Es funktionierte gut auf einige PDF-Dateien, aber für die Mehrheit von Ihnen gab es zahlreiche Probleme.

Klicken Sie einfach auf Dateien Hinzufügen und klicken Sie dann auf Konvertieren. Sobald die Konvertierung abgeschlossen ist, klicken Sie auf Durchsuchen, um die Datei zu öffnen. Sie Laufleistung variieren mit diesem Programm also nicht zu viel erwarten.

Es ist auch erwähnenswert, dass, wenn Sie in einer Unternehmensumgebung oder bekommen können Ihre Hände auf eine Kopie von Adobe Acrobat von der Arbeit, dann kann man wirklich sehr viel bessere Ergebnisse. Acrobat ist natürlich nicht kostenlos, aber es hat Optionen zum konvertieren von PDF zu Word -, Excel-und HTML-format. Es auch nicht den besten job der Beibehaltung der Struktur des ursprünglichen Dokuments und der Umwandlung der komplizierten text.