Neuerungen PDFmdx Version 1.6.1:
1.) Bereichs OCR: Markierte Bereiche / Feldinhalte können jetzt auch per OCR aus dem Dokument ausgelesen werden. Für jedes Feld kann über den Modus festgelegt werden wie der Text aus dem PDF ausgelesen werden soll – Native – Dabei wir wie bisher der darunterliegende Text direkt aus dem PDF ausgelesen. OCR / SmartOCR – Nicht bei jedem PDF kann immer jedes Wort das unter dem markierten Bereich liegt ausgelesen werden. Manchmal ist nur ein Image vorhanden oder es kann nur der ganzer Satz/Absatz nicht aber ein Begriff an einer bestimmten Position ausgelesen werden – In dem Fall kann der OCR / SmartOCR Modus verwendet werden. Dabei wird aus dem PDF in ein Image erzeugt welches anschließend per OCR verarbeitet wird. Der markierte Bereich kann ausgelesen werden, unabhängig davon wie das PDF aufgebaut ist bzw. wie es erzeugt wurde. Über die OCR Einstellungen wird die OCR-Sprache sowie die Auflösung für die Konvertierung des PDF´s in das Image konfiguriert. Der Standardwert für die Auflösung liegt bei 300dpi und kann bei schwierigen Schriften und Dokumenten bis auf 600dpi erhöht werden. Bei SmartOCR erfolgt eine automatische Umschaltung zwischen Native auf OCR.
2.) Regular Expression: RegEx Regeln können für jedes Feld definiert werden und ermöglichen eine Aufbereitung und Filterung der extrahierten Feldinhalte – z.B.:
- „
[ab]+
“ entspricht „a“, „b“, „aa“, „bbaab“ etc. - „
[0-9]{2,5}
“ entspricht zwei, drei, vier oder fünf Ziffern in Folge, z. B. „42“ oder „54072“, jedoch nicht den Zeichenfolgen „0“, „1.1“ oder „a1a1“
3.) XLS Lookup für E-Mail Adressen: Dabei kann eine XLS(X) Datei mit 2 Spalten dazu verwendet werden um für einen aus dem Dokument ausgelesenen Schlüsselwert z.b. die Kundennummer die im Dokument nicht enthaltene E-Mail Adresse über die zweite Spalte zu finden und als Variable für den E-Mail Versand für das „to“-Feld zu verwenden.
4.) Start der Verarbeitung zu einem vorgegebenen Datum & Uhrzeit: Bisher konnte die Verarbeitung entweder manuell, oder immer wiederkehrend mit einem festgelegten Intervall angestoßen werden. Es war aber bisher nicht möglich die Verarbeitung zu einem bestimmten Datum und Uhrzeit zu starten. Das kann z.b. sinnvoll sein um eine größere Anzahl an E-Mails zeitversetzt in der Nacht zu verschicken um nicht den normalen Arbeitsablauf zu stören. Die Dateien können vorbereitet und die Verarbeitung wird zum festgelegten Zeitpunkt gestartet.