PDFmdx – Version 1.6.1 – OCR, Regular Expression, XLS Lookup für E-Mail Adressen, Start der Verarbeitung über Datum & Uhrzeit

Neuerungen PDFmdx Version 1.6.1:

1.) Bereichs OCR: Markierte Bereiche / Feldinhalte  können jetzt auch per OCR aus dem Dokument ausgelesen werden. Für jedes Feld kann über den Modus festgelegt werden wie der Text aus dem PDF ausgelesen werden soll – Native – Dabei wir wie bisher der darunterliegende Text direkt aus dem PDF ausgelesen. OCR / SmartOCR – Nicht bei jedem PDF kann immer jedes Wort das unter dem markierten Bereich liegt ausgelesen werden. Manchmal ist nur ein Image vorhanden oder es kann nur der ganzer Satz/Absatz nicht aber ein Begriff an einer bestimmten Position ausgelesen werden – In dem Fall kann der OCR / SmartOCR Modus verwendet werden. Dabei wird aus dem PDF in ein Image erzeugt welches anschließend per OCR verarbeitet wird. Der markierte Bereich kann ausgelesen werden, unabhängig davon wie das PDF aufgebaut ist bzw. wie es erzeugt wurde. Über die OCR Einstellungen wird die OCR-Sprache sowie die Auflösung für die Konvertierung des PDF´s in das Image konfiguriert. Der Standardwert für die Auflösung liegt bei 300dpi und kann bei schwierigen Schriften und Dokumenten bis auf 600dpi erhöht werden. Bei SmartOCR erfolgt eine automatische Umschaltung zwischen Native auf OCR.

2.) Regular Expression: RegEx Regeln können für jedes Feld definiert werden und ermöglichen eine Aufbereitung und Filterung der extrahierten Feldinhalte  – z.B.:

  • [ab]+“ entspricht „a“, „b“, „aa“, „bbaab“ etc.
  • [0-9]{2,5}“ entspricht zwei, drei, vier oder fünf Ziffern in Folge, z. B. „42“ oder „54072“, jedoch nicht den Zeichenfolgen „0“, „1.1“ oder „a1a1“

3.) XLS Lookup für E-Mail Adressen: Dabei kann eine XLS(X) Datei mit 2 Spalten dazu verwendet werden um für einen aus dem Dokument ausgelesenen Schlüsselwert z.b. die Kundennummer die im Dokument nicht enthaltene E-Mail Adresse über die zweite Spalte zu finden und als Variable für den E-Mail Versand für das “to”-Feld zu verwenden.

4.) Start der Verarbeitung zu einem vorgegebenen Datum & Uhrzeit: Bisher konnte die Verarbeitung entweder manuell, oder immer wiederkehrend mit einem festgelegten Intervall angestoßen werden. Es war aber bisher nicht möglich die Verarbeitung zu einem bestimmten Datum und Uhrzeit zu starten. Das kann z.b. sinnvoll sein um eine größere Anzahl an E-Mails zeitversetzt in der Nacht zu verschicken um nicht den normalen Arbeitsablauf zu stören. Die Dateien können vorbereitet und die Verarbeitung wird zum festgelegten Zeitpunkt gestartet.

1_Felddefinition mit Regular Expression und OCR Support  2_OCR Settings - Spachauswahl  3_OCR Settings - Auswahl der Auflösung für PDF Rendering  4_E-Mail Adress Extraktion auch über OCR möglich  5_E-Mail Lookup über XLS Tabelle möglich  6_Start der verarbeitung zu einem vordefinierten Zeitpunkt um z.b. die Verarbeitung in der Nachausführen zu lassen

 

Download – PDFmdx Template Editor & Processor >>>