Kategorie: Text Extraktion

eDocPrintPro Version 3.18.2 verfügbar

eDocPrintPro kann neben dem PDF auch eine Datei mit ihrem Textinhalt erzeugen. Über diese Datei kann eine nachgelagerte Software weitere Aktionen  veranlassen und steuern. So kann z.b. eDocPrintPro auch als Fax Druckertreiber für Telefonanlagen genutzt werden wobei die Fax-Nummer im Dokument mitgedruckt, über die Textdatei ausgewertet und an die Fax-Software übergeben wird. Die Starface Telefonanlage – www.starface.de – unterstützt z.b. eine solche Funktion und liefert eine angepasste Version von eDocPrintPro mit aus.

Mit der neuen Version 3.18.2 wurde die Funktion für die Extraktion von Texten aus dem PDF neu implementiert und damit genauer und zuverlässiger gemacht.

Download – eDocPrintPro 32 und 64bit (ca. 30MB) >>>
Download – eDocPrintPro PDF/A  32 und 64bit (ca. 52MB) >>>

AutoOCR 1.10.3 – iOCR – neue unlimitierte Standard OCR Engine enthalten

iOCR – unlimitierte Standard OCR Engine für AutoOCR

Eine neue unlimitierte iOCR Standard OCR Engine wurde implementiert. Diese zeichnet sich durch eine hohe Verarbeitungsgeschwindigkeit aus, kann als Input neben den üblichen Imagedateien auch PDF´s verarbeiten um daraus durchsuchbare PDF´s zu erzeugen. Diese Engine ist speziell für Anwendungen ideal bei welchen Volltextindizes für große Dokumentenmengen in kurzer Zeit aufgebaut werden müssen. z.b. bei der Integration mit Alfresco über den ifresco TXT Transformer.

Highlights iOCR für AutoOCR:

  • Hohe Performance durch 64bit und parallele Verarbeitung mehrerer Dokumente (CPU / Core / Speicherabhänging)
  • keine Limitierung hinsichtlich der zu verarbeitenden Seiten, bzw. keine CPU / Core Beschränkungen
  • 37 unterstützte Sprachen: Arabisch, Bulgarisch, Catalan, Tschechisch, Chinesisch (vereinfacht), Chinesisch (traditionell), Kroatisch, Dänisch, Holländisch, Deutsch, Griechisch, Englisch, Finnisch, Französisch, Hebräisch, Hindi, Ungarisch, Indonesisch, Italienisch, Japanisch, Koreanisch, Lettisch, Litauisch, Norwegisch, Polnisch, Portugiesisch, Rumänisch, Russisch, Serbisch (Latein), Slowakisch, Slowenisch, Schwedisch, Tagalog (Pilippinisch), Thai, Türkisch, Ukrainisch, Vietnamesisch
  • PDF, TIFF, JPEG, PNG – als Input / PDF-OCR sowie TXT als Output
  • JBIG-2 erzeugt noch kleinere Schwarz & Weiss PDF Dokumente als durch die TIFF Gr. 4 Komprimierung
  • zuschaltbare intelligente PDF Verarbeitung – es werden nur PDF-Image Dokumente einer OCR Verarbeitung unterzogen, PDF´s die bereits Text enthalten werden nicht nochmals verarbeitet – das erhöht den Druchsatz und steigert die Qualität.

Bemerkung: für uns ist weiterhin die Abbyy FineReader Engine die beste verfügbare OCR Engine – mit den meisten Funktionen und Features sowie mit der besten Erkennungsrate. Es gibt jedoch Anwendungsbereiche und Gründe eine alternative OCR Engine einzusetzen. Das ist auch ein wichtiges Feature von AutoOCR – es wird nicht nur eine einzige OCR Engine unterstützt,  sondern je nach Anforderung können auch mehrere parallel aktiv sein bzw. können OCR Engines nachgerüstet werden.

Neuerungen – AutoOCR Version 1.10.3:

  • iOCR als Standard OCR Engine bereits im Lieferumfang / Setup enthalten
  • „Intelligente“ OCR Verarbeitung von PDF Dokumenten – PDF Dokumente werden vor der OCR Verarbeitung überprüft ob diese bereits Text enthält – falls ja so wird das PDF nicht per OCR verarbeitet sondern das PDF bzw. der daraus extrahierte Text wird zurückgeliefert. Speziell für die Alfresco Transformer Integration ist dies erforderlich da von Seiten Alfresco bei der PDF Transformation PDF>PDF bzw. PDF>TXT nicht zwischen „normalen“ PDF und Image PDF unterschieden werden kann und daher jedes PDF durch den Transformer geschickt wird. Durch diese Option wird unnötige OCR Verarbeitung und damit werden Verarbeitungszeit und Abbyy OCR-Seiten-Lizenzen gespart.
  • Web-Service – Job Liste – Neue Funktion – alle Jobs löschen
  • Web-Service – Job Liste – Datum und Uhrzeit der Job Erstellung wird mit angezeigt
  • Web-Service – parallele Verarbeitung  beim Upload bzw. Job Handling wurde optimiert und verbessert.
  • Web-Service .NET Beispiel Client – wurde erweitert – Mehrfach Upload von Dateien, Parallel Upload, Anzeiger der aktuell laufenden Parallel Uploads, Unterstützung der Funktionen im Client für Parallelverarbeitung (Upload, Job Handling…)

1_AutoOCR_neue_iOCR_engine 2_AutoOCR_iOCR_Sprachauswahl_1 3_AutoOCR_iOCR_Sprachauswahl_2 4_AutoOCR_iOCR_color_compression 5_AutoOCR_iOCR_b&w_compression 7_AutoOCR_Abbyy_intelligent_PDF_processing

Download – AutoOCR – OCR Server inkl. iOCR Engine (ca. 150MB) >>>
Download – AutoOCR – Web-Service Beispiel-Client  inkl. C# Source >>>

Download – Schritt für Schritt Installation AutoOCR & ifresco Transformer >>>

Für die Abbyy OCR Engine Version 10 stehen Demolizenzen für 30 Tage bzw. 500 Seiten zur Verfügung – diese können Sie gerne bei uns anfordern

Download- Abbyy FineReader 10.x Rel 4 OCR Engine Setup (ca. 460MB) >>>

Demolizenzkey für FineReader OCR Engine anfordern

PDFmdx – Dokumente erkennen, Splitten und Metadaten extrahieren

PDFmdx ist eine Anwendung um PDF Dokumente auf Grund von definierten Bedingungen und Inhalten zu erkennen, zu klassifizieren sowie Gesamtdokumentenpackages in Einzeldokumente aufzusplitten.

Aus den klassifizierten und gesplitteten Einzeldokumenten werden an Hand von vordefinierten Feldtemplates die gewünschten Inhalte (Metadaten) ausgelesen und für die Weiterverarbeitung in eine Indexdatei geschrieben.

Auf diese Art und Weise lassen sich sowohl PDF Dokumente die direkt aus einer beliebigen Anwendung heraus z.B.: per PDF-Druckertreiber erzeugt, aber auch eingescannte Dokumente die per OCR Vorgang in durchsuchbare PDF´s (Image im Vordergrund und Text im Hintergrund) konvertiert wurden verarbeiten.

Neben der Erkennung, Aufteilung und Extraktion von Bereichsinhalten verfügt PDFmdx auch über weiterverarbeitende Funktionen zur Automatisierung von Abläufen.

  • PDF Briefpapier kann hinterlegt / überlagert werden.
  • PDF Signatur kann sichtbar / unsichtbar aufgebracht werden.
  • E-Mail Versand kann durchgeführt werden, wobei die für das E-Mail erforderlichen Informationen aus dem Dokumenteninhalt gewonnen werden.

Die Anwendung besteht aus zwei Programmteilen – dem PDFmdx Template Editor und dem PDFmdx Prozessor. Mit dem Template Editor werden die Kriterien und Verarbeitungsschritte konfiguriert und der Prozessor verarbeitet die Dokumente auf Basis der Templates.

PDFmdx – Einsatzbereiche:

  • Automatische Archivierung von Reports aus ERP, Lohnverrechnung usw. – Erkennung der Reporttypen, Extraktion von Metadaten für die Archivierung.
  • Automatische Archivierung von Rechnungen, Lieferscheinen, Auftragsbestätigungen über PDF Druckvorgang.
  • Automatische Weiterverarbeitung von Belegen – Versand von Terminbestätigungen, Rechnungen, Mahnungen, Auftragsbestätigungen per Einzel bzw. Gesamtdruckvorgang überPDF Druckertreiber oder PDF-Export – Hinterlegen von Briefpapier, Elektronische Signatur, E-Mail Versand.
  • Eingangs-Belegerfassung über Scanvorgang mit PDF-OCR : Belegerkennung und Metadatenextraktion für die Weiterverarbeitung bzw. Archivierung.

PDFmdx Template Editor – zur Erstellung von Templates für den PDFmdx Prozessor

01_PDFmdx Template Editor

Templates sind die Voraussetzung um die Dokumente zu kategorisieren, zu splitten und die gewünschte Information daraus auszulesen. Templates legen auch die zusätzlichen Verarbeitungen fest: Under/Overlay, Signatur und E-Mail Versand.

Zuerst müssen Kategorien erstellt werden – diese legen die Felder, Typen, Ausgabefolder und den Aufbau der Indexdatei fest. Kategorien werden dann in den Templates verwendet  und müssen nicht jedes Mal neu definiert werden. Z.B.: Die Feld/Datenstruktur für Eingangsrechnungen unterschiedlicher Lieferanten ist immer gleich – das Aussehen der unterschiedlichen Rechnungen, die Position und Anordnung der Felder ist jedoch immer verschieden. Also muss eine Kategorie für Eingangsrechnungen angelegt werden und dann pro Lieferant ein Template.

Funktionen – PDFmdx Kategorien:

03_Definition der Profil Kategorien - Felddefinitionen

  • Kategorien werden über Namen verwaltet – Neu anlegen, Kopieren, Umbenennen.
  • Auswahl Zielfolder für Indexdaten – entweder eine zusammengefasste Indexdatei für alle Dokumente oder pro Dokument eine Indexdatei.
  • Definition des Indexdatei Aufbaus – Text, Variablen und Felder sind verwendbar.
  • Definition – Zielfolder sowie Dateiname für die PDF Dokumente – auch unter Verwendung von Variablen / Feld-Inhalten.
  • Felddefinition – Name, Typ (Text, Ziffern, Buchstaben, Buchstaben und Ziffern), Führende Nullen entfernen, Entfernen von Text oder Zeichen Links oder Rechts z.b. „(123)“, Groß und Kleinschreibung ignorieren.
  • Felder hinzufügen, löschen, verschieben hinauf / hinunter.
  • Definition – Dezimal- und Tausender Trennzeichen – Punkt, Beistrich, Kein.

Funktionen – PDFmdx Template Editor:

02_PDFmdx Template Editor

  • Templates werden über Namen verwaltet und ausgewählt – Template Laden, Speichern, Kopieren, Neu anlegen, Umbenennen, Löschen.
  • Template exportieren / importieren – Alle benötigten Dateien werden in einer ZIP Datei zusammengefasst  gespeichert / geladen. Templates können damit auf andere Rechner oder PDFmdx Verarbeitungsstationen übertragen werden.
  • PDF Prototyp auswählen und dem Template zuordnen – Eine PDF Musterdatei wird ausgewählt und angezeigt und dient als Grundlage für die visuelle Positionierung der Felder.
  • Profil Kategorie auswählen – Damit wird das Template um die Feld-Definition sowie die Festlegung der Ziel-Folder /Namen ergänzt.
  • Grundeinstellungen Template Editor:  Auswahl der Text Extraktions Komponente, Farb- & Transparenz-Zuordnung für die visuelle Felddarstellung.

Funktionen – Voransicht PDF-Musterdatei:

  • Seite blättern, Seite per Nummer auswählen, Erste/Letzte Seite, Zoom In/Out, Anpassen – Breite/Höhe/Optimal anpassen.
  • Auswahl der über die Kategorie zur Verfügung gestellten Felder, Positionierung und Größenanpassung der Feld-Bereiche im PDF Viewer, Anzeige der Feld-Bereichsinformation (Seite, Bereichskoordinaten, Extrahierter Text, Kategorie, Feldname, Ziel Ordner).
  • Statusanzeige – Position, Größe, Seitengröße, extrahierter Text.

Konfiguration – Verarbeitungsfunktionen:

PDF-Overlay / Underlay
– auswählen /aktivieren/ deaktivieren, Nur erste Seite/Erste Seite auf allen Seiten anwenden/Erste Seite auf der ersten Seite und 2.Seite auf den Folgeseiten anwenden.

08_Template Settings Stationery

PDF-Signatur – aktivieren/deaktivieren, Auswahl Zertifikat, Zusatzinformationen für Signatur: Kontakt, Standort, Grund. Auswahl der Seite für die Signatur: Erste, Letzte, bestimmte Seite. Sichtbare Signatur: Positon (X/Y), Ankerpunkt, Größe (X/Y), Skalierung, Bild für die Darstellung auswählen.

09_Template Settings Signatur

PDF-Metadaten – Titel, Autor, Betreff, Schlüsselworte, Anwendung – fixer Text bzw. Verwendung von Variablen und Feldinhalten, Auslesen und Einfügen der bestehenden PDF-Metadaten über Variable möglich.

10_Template Settings PDF Metadata

Allgemeine Template Einstellungen – Referenzpunkt für die Anwendung des Templates auf dem zu verarbeitenden Dokument, Horizontal / Vertikal – Links / Mitte / Rechts. Erlaubte Toleranz der Seitengröße – Template und Verarbeitung.

11_Template Settings Allgemeine Einstellungen

Template Erkennungs- / Split-Bedingungen:

  • Anlegen und Bearbeiten der Bedingungen zur Erkennung des Templates – Vergleichstext/Suchbegriff – fix oder unter Verwendung von „Wildcards“ (*?#), in einen  bestimmten Feld / Text der ganzen Seite, Festlegung der zu durchsuchenden Seiten (Einzelseiten, Intervall, $ – bis zur letzten Seite).
  • Hierarchisch logische Verknüpfung der Bedingungen über UND / ODER

05_PDFmdx Template Designer - Template Recognition

  • Definition der Bedingungen für den Dokumentensplit  – auf Basis des Templates – Teilen nach fix definierten Seiten, Teilen falls sich der Inhalt eines bestimmten Feldes verändert, Teilen auf Basis von hierarchisch logische Bedingungen über UND / ODER gleich wie bei der Template Erkennung.

06_PDFmdx Template Designer - Split conditions

E-Mail Versand – Die Dokumente können auch automatisiert per SMTP E-Mail verschickt werden – im Template Editor wird eine E-Mail Vorlage für den Versand hinterlegt.

  • Eine individuelle über das Template gesteuerte oder allgemeine Absender E-Mail Adresse verwenden.
  • „an:“, „cc:“, „bcc:“ – fix, über Feld-Variablen, bzw. über Dokumenten E-Mail Adress-Suche belegbar. Für die Suche – Definition der zu durchsuchenden Seiten, Ausschließen von E-Mail Adressen.
  • Betreff, HTML E-Mail Body  – fixer Text bzw. Verwendung von Variablen und Feldinhalten
  • Anhängen zusätzlicher statischen E-Mail Attachments.

12_Template E-Mail Einstellungen

Template Test-Funktion – Im Template Editor ist eine Testfunktion vorgesehen mit der das aktuelle Template entweder mit der geladenen oder mit einer frei wählbaren PDF Datei getestet werden kann. Dabei werden die Feldnamen und die extrahierten Textinhalte angezeigt. Der „Test“ Button ermöglicht zu überprüfen – ob das aktuelle Template erkannt und bei welchen Seiten die PDF Datei geteilt werden würde.

13_PDFmdx Text Extraction & Split Test Function

PDFmdx – Prozessor:
Der PDFmdx Prozessor kann einen oder mehrere Inputfolder überwachen. Die Verarbeitung kann pro Folder entweder zeitgesteuert in einem bestimmten Intervall erfolgen oder manuell angestoßen werden.

14_PDFmdx processor

Funktionen PDFmdx – Prozessor:

  • Verarbeitungs-Folder – Neu anlegen, Löschen, Umbenennen
  • Templates neu einlesen, Template importieren
  • SMTP – E-Mail Konfiguration: Server, Port, SSL, Absender E-Mail, Benutzername, Passwort, Test E-Mail, Eigene E-Mail Konfiguration für Fehler.
  • Auswahl Input-Folder, Error-Folder
  • Versand von E-Mail aktivieren / deaktivieren – falls im Template eine E-Mail Funktion definiert wurde  kann diese hier generell für den ganzen Folder und allen zugeordneten Templates deaktiviert werden.
  • Folder-Scan Intervall festlegen, Anzeige der verbleibenden Zeit bis zum nächsten Scan, Automatisierten Folder-Scan aktivieren / deaktivieren. „Scan-Now“ Button.
  • Template – Auswahl: dabei wird für den aktuellen Folder festgelegt welche der vorhandenen Templates für die Dokumentenerkennung verwendet werden sollen.  Die Templates werden der Reihen nach abgearbeitet, bei der ersten Übereinstimmung der Kriterien wird die Verarbeitung mit dem gefundenen Template gestartet.
  • PreSplit der Dokumente: Normalerweise erfolgt zuerst eine Template-Erkennung und auf Basis des ersten erkannten Templates. Danach wird, falls vorgesehen das Gesamtdokument einer Aufteilung  unterzogen. Das funktioniert jedoch nur dann wenn es sich um gleiche Dokumente handelt. Sind jedoch verschiedene Dokumententypen im Stapel vorhanden so muss dieser zuerst in Einzeldokumente aufgeteilt werden. Um diese danach gegen die vorhandenen Templates zu identifizieren.
  • Für die PreSplit Funktion ist ein eigenes Template erforderlich – dieses dient jedoch nur dazu um Felder und Positionen zu haben um Splitkriterien aufbauen zu können – die Split-Bedingungen sind hierbei dem Ordner zugeordnet.

Download – PDFmdx Template Editor & Processor >>>

eDocPrintPro – XML Plugin – Version 2.0.2 – XML und Text Export aus PDF

Mit der Version 2.0.2. des eDocPrintPro – XML Plugin ist es jetzt auch möglich neben einer XML Datei auch eine ASCII Text Datei mit den Texten aus dem PDF zu erzeugen.  Dabei wird in der TXT Datei der Beginn und das Ende der einzelnen Seiten mit entsprechenden Schlüsselworten gekennzeichnet.

  • $$Start 1$$ – Kennzeichnet den Beginn der ersten Seite und
  • $$End 1$$ – das Ende der ersten Seite usw.

eDocPrintPro XML & TXT export

Download – eDocPrintPro – XML Plugin für 32bit OS >>>
Download – eDocPrintPro – XML Plugin für 64bit OS >>>

eDocPrintPro – XML Plugin – PDF Textinformationen als XML exportieren

Mit dem neuen eDocPrintPro XML Plugin kann die in der erzeugten PDF Datei enthaltenen Textinformation als strukturierte XML Datei ausgegeben werden.

Die XML Datei enthält folgende Information:

  • Name und Ablagepfad der PDF Datei
  • Einheit der Positions- und Größeninformaiton (mm / inch / Punkt)
  • Seitennummer / Seitengröße
  • Textstring
  • Umschreibende Box für den Textstring – Startposition / Höhe / Breite in mm/inch/Punkt

Auf Basis dieser strukturierten Information können weitere Auswertungen bzw. Verarbeitungsschritte angestoßen und ausgeführt werden.

Die XML Information kann verwendet werden um z.B.:

  • E-Mail Adressen oder Fax-Nummern auszulesen,
  • an Hand der Information zu erkennen um welchen Dokumententyp es sich handelt,
  • die Info bestimmter Bereiche als Metadaten für die Archivierung zu verwenden,
  • festzustellen bei welchen Seiten ein mehrseitiges Dokument in Einzeldokumente getrennt werden soll.

Extract Text information as XML from PDF PDF Textinformation als XML XML aus PDF - liefert Informationen über Position und Größe der Textbox der Teststrings

Download – eDocPrintPro – XML Plugin für 32bit OS >>>
Download – eDocPrintPro – XML Plugin für 64bit OS >>>

Extraktion von Text bzw. E-Mail Adressen aus PDF, Lucene Volltextengine als .NET Komponente

Im Zuge verschiedener Projekte erweitern wir laufend die Funktionen unserer .NET Basis Komponenten. Nachfolgende einige Beispiel daraus.

Extrahieren der Textinformation aus PDF
verwenden wir zum Beispiel in unserem eDocPrintPro Druckertreiber um neben der PDF auch eine ASCII Datei mit der aus dem Dokument gewonnen Textinformation abzulegen. Der Text kann analyisiert, durchsucht und weiterverarbeitet werden – oder die Information wird in eine SQL/Volltext-Datenbank geschrieben um in weitere Folge die Volltextsuche zu ermöglichen.

Extrahieren der Text Information aus PDF Dokumenten

Extrahieren von E-Mail Adressen  aus PDF
Unsere Komponenten erlauben es uns auch nach bestimmten Textstrings auf PDF Seiten zu suchen und das Gesamtdokumente an diesen Seiten in Einzeldokumente teilen – z.b. im eDocPrintPro PDFSplit Plugin. Ebenso gibt es eine Funktion um z.b. E-Mail Adressen aus einem PDF zu extrahieren – das verwenden wir bei iPaper oder aber auch in unserer PDFMail Software. Die PDF Dokumente können an Hand der damit gewonnen Information gleich per E-Mail verschickt werden.

Extrahieren von E-Mail Adressen aus PDF Dokumenten

Lucene .NET – OpenSource Volltext Datenbank
Eine weitere zur Verfügung stehende Funktion erlaubt es große Datenmengen mit der Lucene .NET  OpenSource Volltextdatenbank zu indizieren. Damit können auch sehr großen Dokumentenbestände blitzschnell durchsucht und Informationen zielgenau gefunden werden.

Lucene .NET OpenSource Volltextdatenbank

Download – Demo – Extrahieren von Text, E-Mail, Volltextsuche >>>

Für weitere Informationen kontaktieren Sie uns bitte >>>

PDFSplit – eDocPrint Pro Plugin – neue Version – sowie 64bit Version verfügbar

Neu implementiert wurden Funktionen um das über den Druckvorgang erzeugte PDF Dokument entweder an Hand einer vorgegebenen Liste von Seitennummern oder alle „x Seiten“ zu teilen – z.b.: 1,3,8,15 – würde das Dokument an den Seiten 1,3,8 und 15 teilen und aus den Gesamtdokument vier Einzeldokumente erzeugen. Dabei wird an den Ursprungsnamen ein Zähler (001, 002, 003, 004 usw.) angehängt.

Die neue Version ist jetzt auch als 64bit Version verfügbar.

eDoc Plugin Split PDF based on pages  eDoc Plugin Split PDF based on text strings

Download – PDFSplit eDocPrintPro Plugin – 32bit >>>
Download – PDFSplit eDocPrintPro Plugin – 64bit >>>

PDFSplit – eDocPrintPro Plugin – PDF Dokument automatisch teilen und speichern

Basierende auf unseren Routinen zum extrahieren von Text aus PDF Dokumenten haben wir einen Plugin für den eDocPrintPro Druckertreiber entwickelt mit dem es möglich ist die erzeugte PDF Datei nach Schlüsselworten zu durchsuchen und an diesen Seiten automatisch zu teilen. Die darin enthaltene Information wird verwendet um die erzeugten Einzeldokumente in einen bestimmten Pfad unter einem bestimmten Namen zu speichern.

Damit ist es z.b. möglich Serienbriefe, Rechnungen, Mahnungen, Bestellungen über einen PDF-Gesamtausdruck automatisch in PDF-Einzeldokumente zu zerteilen und diese Einzeldateien automatisiert weiterzuverarbeiten. Die für die Weiterverabeitung erforderliche Steuerinformation kann dabei aus dem Inhalt des PDF-Dokuments extrahiert und verwendet werden.

Die im Dokument „eingebettete“ Steuerinformation kann im PDF sichtbar oder auch „unsichtbar“ eingebracht werden – sichtbar z.b. bei einer angdruckten Auftrags-, Rechnungsnummer oder E-Mail Adresse. „Unsichtbar“ z.b. durch Verwendung einer sehr kleinen Schrift oder durch Zuordnen der Schriftfarbe „Weiss“ auf „weissem Hintergrund“. Damit wird erreicht dass die Information zwar als Text im PDF drinnen steht und auch extrahiert werden kann – die Information jedoch nicht lesbar auf dem Beleg erscheint.

PDFSplit – Funktionen:

  • eDocPrintPro Plugin
  • Definition von Schlüsselworten für Anfang/Ende sowie für Pfad / Dateinamen
  • Suche nach Pfad und Dateinamen auf den einzelnen Seiten des Gesamtdokuments.
  • Wird im Dokument, bzw. auf der ersten Seite keine Information gefunden so kommt der „Speichern unter“ Dialog hoch.
  • Mit jeder Seite welche diese Information enthält, wird das Gesamtdokument in Einzeldokumente zerlegt.
  • Die Einzeldokumente werden über die gefundene Information (Pfad, Name) gespeichert.

eDocPrintPro - Konfiguration der “Ziel” Einstellungen für PDFSplit eDocPrintPro Plug-In Konfiguration für PDFSplit PDFSplit - Standard Einstellungen für Pfad und Dateinamen

Beispiel: Folgender String teilt und speichert ab der Seite

  • Seite 1: {$Dir$}C:\{$/Dir$} {$Name$}Test1{$/Name$}
  • Seite 5: {$Dir$}C:\{$/Dir$} {$Name$}Test2{$/Name$}

Damit werden 2 Dokumente erzeugt – die beide unter „C:\“ liegen und mit „Test1.pdf“ die Seiten 1 bis 4 und mit „Test2.pdf“ die Seiten 5 und folgende enthalten.

Download – PDFSplit eDocPrintPro Plugin >>>

PDF Text Extraktion – Extrahieren der Volltextinformation aus PDF Dokumenten

PDF Dokumente enthalten oft auch die komplette Textinformation zum Dokument. Auf Basis dieser Textinformation ist es z.b. möglich einen Volltextindex aufzubauen und damit sehr schnell nach Informationen in großen Datenmengen zu suchen. Weiters kann es sinnvoll sein bestimmte Schlüsselworte im Text zu suchen und die gefundene Information für die Weiterverarbeitung zu verwenden.

Aufgrund verschiedener technischer Gegebenheiten ist es gar nicht so einfach den kompletten und richtigen Text aus einer PDF Datei herasuszubekommen – Wir haben uns daher eine eigene .NET basierende Komponente geschaffen um diese Volltextinformaiton zusammen mit der Seiteninformation aus einem PDF Dokument zu extrahieren.

Wo findet die PDF Text Extraktion ihre Anwendung:

  • Aufbau einer Volltextindexdatenbank um über den Textinhalt Einzelner oder über mehrere PDF Dokumente sehr schnell suchen zu können. Wir haben für diesen Anwendungsbereich auch eine .NET basierende Volltextdatenbank implementiert und sind damit in der Lage auch größerere Mengen von PDF Dokumenten bzw. PDF Dokumente mit tausenden Seiten schnell und effizient zu durchsuchen.
  • Suche nach Schlüsselworten / Keywords im Text und Teilen eines Gesamtdokuments in Einzeldokumente auf Basis der gefundenen Texte. z.b. um einen Serienbrief in Einzeldokumente aufzuteilen und automatisiert per E-Mail zu verschicken.
  • Suche und Extrahieren von E-Mail Adressen aus einem PDF Druckdokument und Verwendung der gefundenen E-Mail Adresse(n) für die automatisierte Erzeugung einer E-Mail Nachricht. Eine solche Funktion steht z.b. in iPaper bereits jetzt zur Verfügung.

Diese neue Funktion zur Extraktion von Texten wird in Kürze auch in unserem freien PDF Druckertreiber eDocPrintPro zur Verfügung stehen. Weiters befinden sich ein eDocPrintPro Plugin zum automatischen Teilen und Weiterverarbeiten von Druckdokumenten sowie ein PDF Viewer mit Suche über Volltextindex in Entwicklung.

PDF Text Extraktion - Extrahieren der Volltextinformaiton aus PDF Dokumenten

Webshop