PDF OCR Tool – PDFFilter – Filtert PDF´s die bereits Textinformation enthalten

Wir sind immer wieder mit der Anforderung konfrontiert einen bestehenden Dokumentenbestand in ein DMS/ECM System zu importieren. Die Dokumente liegen in allen möglichen Formaten in großer Menge im Dateisystem. Neben den üblichen MS-Office Formaten werden immer öfter auch PDF Dokumente abgelegt. Scans werden heute üblicherweise auch bereits als PDF gespeichert. Bei der Übernahme / Import möchte man nun alle vorhandenen PDF Dokumente durchsuchbar machen damit man später möglichst einfach auch über den Inhalt der Dokumente finden kann.

Es wäre nun möglich einfach alle vorhandenen PDF Dokumente durch die OCR Verarbeitung (z.b. AutoOCR)  zu “schicken”, unabhängig davon ob die PDF Datei bereits durchsuchbar ist oder nicht. Das ist an sich technisch möglich da bei der OCR Verarbeitung jede PDF Datei verarbeitet werden kann egal wie diese erstellt wurde – das ist jedoch nicht sinnvoll da z.b. eine per PDF Druckertreiber aus einer Anwendung heraus erzeugte PDF Datei bereits eine durchsuchbare PDF Datei ist und jede zusätzliche OCR Verarbeitung – die Datei nur größer macht sowie Verarbeitungszeit als auch Seiten der OCR Lizenz kosten. Und das kann je nach Verteilung und Anzahl der PDF Dokumente ein wesentlicher Zeit- und Kostenfaktor sein.

Deswegen sollte man jedenfalls nur jene PDF Dokumente einer OCR Verarbeitung unterziehen die diese wirklich auch benötigen. Aus diesem Grund stellen wir das kostenlose Tool – PDFFilter zur Verfügung mit dem gezielt diese Dokumente gefunden und herausgefiltert werden können.

Funktionen:

  • Start-Ordner – alle darunter liegenden Unterordner werden verarbeitet – Ziel ist es dass nur jene PDF überbleiben die einer OCR Verarbeitung unterzogen werden sollen.
  • Ziel-Ordner – in diesen werden die PDF´s verschoben die keiner OCR Verarbeitung bedürfen – Ordnerstruktur und Dateiname bleiben erhalten.
  • Ordner für “Geschützte PDF” – PDF´s mit Passwortschutz zum Öffnen können nicht OCR verarbeitet werden – PDF werden in diesen Ordner verschoben.
  • Selektion “Verschieben” über – “PDF enthält bereits einen Text”, Selektion aus einer Liste “Anwendung mit der das PDF erstellt wurde” oder “Erzeugt mit” Info – diese beiden Infos sind PDF Metadaten die aus den vorhandenen PDF´s ausgelesen und als Liste zur Selektion angeboten werden. Dient dazu gezielt PDF´s herauszufiltern die nicht OCR verarbeitet werden müssen.
  • Bestehende Datei bereits vorhanden – Überschreiben, Überspringen, Zähler anhängen.

PDFFilter_search for text PDF PDFFilter_select by applicaiton or created with info_1 PDFFilter_select by applicaiton or created with info_2

Download – PDF OCR Tool – PDFFilter >>>