PDF Text Extraktion – Extrahieren der Volltextinformation aus PDF Dokumenten

PDF Dokumente enthalten oft auch die komplette Textinformation zum Dokument. Auf Basis dieser Textinformation ist es z.b. möglich einen Volltextindex aufzubauen und damit sehr schnell nach Informationen in großen Datenmengen zu suchen. Weiters kann es sinnvoll sein bestimmte Schlüsselworte im Text zu suchen und die gefundene Information für die Weiterverarbeitung zu verwenden.

Aufgrund verschiedener technischer Gegebenheiten ist es gar nicht so einfach den kompletten und richtigen Text aus einer PDF Datei herasuszubekommen – Wir haben uns daher eine eigene .NET basierende Komponente geschaffen um diese Volltextinformaiton zusammen mit der Seiteninformation aus einem PDF Dokument zu extrahieren.

Wo findet die PDF Text Extraktion ihre Anwendung:

  • Aufbau einer Volltextindexdatenbank um über den Textinhalt Einzelner oder über mehrere PDF Dokumente sehr schnell suchen zu können. Wir haben für diesen Anwendungsbereich auch eine .NET basierende Volltextdatenbank implementiert und sind damit in der Lage auch größerere Mengen von PDF Dokumenten bzw. PDF Dokumente mit tausenden Seiten schnell und effizient zu durchsuchen.
  • Suche nach Schlüsselworten / Keywords im Text und Teilen eines Gesamtdokuments in Einzeldokumente auf Basis der gefundenen Texte. z.b. um einen Serienbrief in Einzeldokumente aufzuteilen und automatisiert per E-Mail zu verschicken.
  • Suche und Extrahieren von E-Mail Adressen aus einem PDF Druckdokument und Verwendung der gefundenen E-Mail Adresse(n) für die automatisierte Erzeugung einer E-Mail Nachricht. Eine solche Funktion steht z.b. in iPaper bereits jetzt zur Verfügung.

Diese neue Funktion zur Extraktion von Texten wird in Kürze auch in unserem freien PDF Druckertreiber eDocPrintPro zur Verfügung stehen. Weiters befinden sich ein eDocPrintPro Plugin zum automatischen Teilen und Weiterverarbeiten von Druckdokumenten sowie ein PDF Viewer mit Suche über Volltextindex in Entwicklung.

PDF Text Extraktion - Extrahieren der Volltextinformaiton aus PDF Dokumenten