Kategorie: PDFmdx

PDFmdx Version 3.8.1 – DataMatrix 2D Barcode für Pitney Bowes Relay Kuvertiersystem

Neuerungen der PDFmdx Version 3.8.1:

  • Pitney Bowes DataMatrix Barcode:

Mit dem Pitney Bowes Relay Kuvertiersystem ist es möglich Briefe oder Rechnungen automatisch zu kuvertieren. Das Kuvertiersystem verfügt über eine Kamera um einen auf der Seite aufgebrachten DataMatrix 2D Barcode zu erkennen, auszulesen und damit die Kuvertiermaschine zu steuern.  Der 2D Barcode muss einen genau definierten Aufbau haben. Er enthält eine 14 stellige Kennung des Dokuments, z.b. die Rechnungsnummer, die Seitennummer im Dokument, die Anzahl der Seiten des Dokumentes und am Ende einen Zähler der über das ganze Dokument fortlaufend sein muss. Über diesen Code kann die Kuvertiermaschine erkennen wann ein neuer Brief beginnt und auch feststellen ob ein Blatt fehlt oder nicht in der richtigen Reihenfolge im Stapel liegt.

Bei der Stempel Variablendefinition gibt es jetzt eine eigene “Pitney Bowes” Checkbox um einen solchen vorgegebenen Aufbau zu erzeugen und als DataMatrix 2D Barcode auf die einzelnen Seiten aufzubringen.

Die Eingangs- als auch die Ausgangsdateien werden über den Dateinamen sortiert verarbeitet, sowie sortiert ausgegeben, z.B. über die aus der Rechnung ausgelesene Rechnungsnummer. Mit Hilfe der Merge2Print Kommandozeilen Anwendung kann anschließend eine sortierte PDF Gesamt-Datei für den Ausdruck erzeugt werden.  Auf Grund der Anforderung, dass der gesamte Ablauf sortiert erfolgen muss, kann nur der ausführbare EXE Prozessor von PDFmdx nicht jedoch der PDFmdx Dienst verwendet werden. Zusätzlich muss “Blockverarbeitung” aktiviert werden.

 

Download – 2D Barcode Spezifikation – Pitney Bowes Relay >>>

  • Start der Verarbeitung über *.rd Datei:

Bisher konnte die PDFmdx Verarbeitung (ausführbare EXE Anwendung oder Windows Dienst) entweder zeitgesteuert (Timer, Datum, Täglich, Wöchentlich) oder über das Einfügen von PDF Dateien in einen überwachten Ordner gestartet werden. Es gibt jedoch Anwendungen bei denen es wichtig ist, dass zuerst alle Dateien im Eingangsordner vorhanden sind um erst dann eine sortierte Verarbeitung zu starten. Dafür gibt es jetzt die *.rd Option. Ist diese Option aktiviert so startet die Verarbeitung erst wenn eine *.rd Datei z.b. “Ready.rd” in den überwachten Ordner kopiert wird. Damit kann die Verarbeitung kontrolliert zum gewünschten Zeitpunkt gestartet werden.

 

Info: Ab der PDFmdx Version 3.8.0 ist .NET Runtime Version 4.5 erforderlich

Download – PDFmdx Template Editor & Processor >>>

PDFmdx Version 3.7.4

Neuerungen PDFmdx Editor Version 3.7.4:

  • Automatische Sicherung der Vorlagen beim Start: Aktivieren der Funktion, Pfadangabe für die Sicherungen, Sicherungen werden mit Datum und Zeit gekennzeichnet und rotierend ersetzt.

  • Suchfunktion für Bedingungen: Vorwärts / Rückwärts Suche, Volltextsuche in den Bedingungen, Auswahl der gefundenen Bedingung, Über das Kontextmenü kann das mit der Bedingung verknüpfte Layout direkt aufgerufen und geöffnet werden.

 

  • Kommentar / Trennzeilen im Bedingungseditor können gelöscht / hinauf / hinunter verschoben werden.

  • Warnung bei leeren Bedingungs-Knoten: Leere Bedingungs-Knoten können bei der Verarbeitung zu unvorhersehbaren Ergebnissen führen. Diese werden jetzt im Bedingungseditor erkannt. Es wird eine Warnung angezeigt um eine Bereinigung durchzuführen.

 

  • NICHT für Bedingungen: Um die Logik einer Bedingung umdrehen zu können.

  • Erweiterbare Felder: Bei Feldern einer gleitenden Gruppe kann es vorkommen dass nicht jeder Datensatz die gleiche Anzahl an Zeilen aufweist und daher ein in seiner vertikalen Größe fix definiertes Feld entweder zu viele oder nicht alle Zeilen erfasst. Mit dieser Option kann das Feld vertikal kleiner definiert werden und es werden alle folgenden Zeilen bis zum nächsten Datensatz in einem Feld erfasst. Das Zeichen das am Ende jeder Zeile für das Zusammenführen eingefügt wird ist konfigurierbar (Leerzeichen, Strichpunkt, Beistrich).

  • Feldposition angleichen und optimale Größe anpassen: Für die Erfassung von Datensätzen einer gleitenden Gruppe / Untergruppe ist es wichtig dass die Felder sich alle auf einer vertikal annähernd gleichen Position befinden und dass die Felder vertikal die richtige Größe aufweisen. Optimal ist die Größe dann wenn das Feld vertikal gerade noch den Textbereich erfasst um den Text auslesen zu können, sollte jedoch nicht größer oder kleiner sein. Manuell kann es bei engen Zeilen manchmal nicht einfach sein die Größe richtig zu setzen.  Dafür gibt es jetzt eine Automatik-Funktion. Mit dieser Funktion werden die Felder automatisch vertikal ausgerichtet und auf die optimale Größe gesetzt.

  • Bereich vor der OCR Erkennung invertieren: OCR funktioniert nur bei dunkler Schrift auf hellem Hintergrund. Bei heller Schrift auf einem dunklen Hintergrund muss vor der OCR Erkennung der Bereich invertiert werden. Dafür gibt es jetzt eine eigene Bildverarbeitungsfunktion die für ein Feld aktiviert werden kann und vor der integrierten OCR Erkennung ausgeführt wird.

  • OCR immer ausführen: Nicht immer hat eine PDF in der Textebene den korrekten Text hinterlegt. z.b. wenn im Gesamtdokument invertierte Bereiche mit weißem Text auf schwarzem Hintergrund vorhanden sind.  Ist die “SmartOCR” Verarbeitung aktiviert so wird ein Bereichs-OCR nur ausgeführt falls kein Text in dem Bereich vorhanden ist. Für  einzelne Bereiche kann jetzt festgelegt werden dass trotz bestehendem Text die OCR immer ausgeführt wird z.b. um vorher eine Invertierung des Bereichs durchzuführen um so ein brauchbares Ergebnis zu bekommen.

 

  • Zusammengesetzte Felder: Es können jetzt auch Felder angelegt werden die aus anderen Feldern und Texten zusammengesetzt sind. Diese Felder können für die Ausgabe verwendet werden.

  • Vorgabewerte für Felder können auf Basis des Layouts und nicht nur global vergeben werden.

 

  • Numerische Felder können auch negative Werte annehmen.
  • Vorlage ohne die in der Vorlage enthaltenen Layouts als neue Vorlage anlegen.

  • Einstellungen einer Vorlage auf andere Vorlagen zu übertragen: Auswahl der Einstellungs-Tabs der Ausgangs-Vorlage sowie Auswahl der Zielvorlagen.

  • PDFSign Komponente wurde integriert um die erzeugten PDF schützen und signieren zu können.

  • Export Datensatz Filter: Über Bedingungen kann der Datensatzexport gefiltert werden. Datensätze die einer der definierten Bedingungen entsprechen werden gefiltert und nicht ausgegeben. Gefilterte Datensätze werden in der Testfunktion „rot“ markiert angezeigt. Bedingungen können auf Basis von Textstrings, Teilstrings, Regular Expression oder “Leer” über Felder, Layouts und Auslese Ebene (Dokument, Gruppe, Untergruppe) sowie UND / ODER bzw. NICHT Verknüpfungen aufgebaut werden.

Neuerungen PDFmdx Prozessor Version 3.7.4:

  • Kommandozeilen Anwendung aufrufen: Nach der Verarbeitung aller Dokumente aus dem Eingangsbereich eines Jobs kann eine Kommandozeilen Anwendung aufgerufen werden.  Z.B.: pdfFM um Dateien aus mehreren Ordnern mit gleichem Namen zu einer Gesamt PDF zusammenzufügen. Erfolgt die Verarbeitung über den PDFmdx Windows Service so darf die Kommandozeilen Anwendung keinen Dialog anzeigen und muss “silent” ausgeführt werden.

 

  • Gesperrte Dateien werden erkannt und nicht verarbeitet: Falls eine zu verarbeitende Datei gesperrt ist kann sie weder verarbeitet als auch nicht in einen Fehler Ordner verschoben werden. Solche Dateien werden über eine *.lock Datei gekennzeichnet und nicht weiter verarbeitet. Um eine solche Datei später wieder zu verarbeiten muss nur die *.lock Datei gelöscht werden.

  • Ausgabe – Wiederholung: ist ein Gerät bei der Ausgabe (Share / Netzwerklaufwerk) nicht sofort verfügbar bzw. reagiert zu langsam so ist jetzt die Wartezeit sowie die Anzahl der Wiederholungen einstellbar bevor die Verarbeitung diesen Umstand als Fehler erkennt und die Verarbeitung unterbricht.

Download – PDFmdx Template Editor & Processor >>>

PDFmdx – Zweistufiges Auslesen von Positionsdaten – Produktvideo

In manchen Branchen gibt es Dokumente bei denen Positionsdaten eine weitere Ebene aufweisen. Belege mit 2-stufige Positionsdaten gibt es z.B. bei Textilien oder bei Bekleidung wo es zu einem Artikel (Nummer, Beschreibung) auch eine “Unterebene” mit Größen bzw. Farbangaben geben kann. Der Artikel selbst wird nur einfach angeführt und in der Ebene darunter finden sich dann die Mengen / Preise der einzelnen Ausprägungen.

PDFmdx ist auch in der Lage zweistufige Positionsdaten zu erkennen und auszulesen. Der nachfolgende Video zeigt wie es geht:

Download – PDFmdx Template Editor & Processor >>>

PDFmdx – Auslesen von Positionsdaten über eine gleitende Gruppe – Produktvideo

PDFmdx kann über festgelegte Bereiche Informationen aus PDF Dokumenten auslesen und diese einem Feld zuordnen. Es gibt jedoch auch Informationen in einem Dokument die mehrfach vorkommen. Z.B. Positionsdaten von Rechnungen – Menge, Artikelnummer, Preis usw. Diese sind normalerweise als Tabellen in fixen Spalten und einer variablen Anzahl von Zeilen ausgeführt.

PDFmdx ist mit Hilfe von “gleitenden Gruppen”auch in der Lage Positionsdaten aus PDF Dokumenten auszulesen. Dabei werden Felder einer “gleitenden Gruppe” zugeordnet und auf dem Vorlage-Dokument positioniert. Über Kriterien werden Bedingungen festgelegt um eine Zeile als Datensatz der “gleitenden Gruppe” zu identifizieren. Zwei Begrenzer legen fest in welchem vertikalen Bereich der Seiten nach solchen Datensätzen “gesucht” wird.

Das nachfolgende Video zeigt auch die Verwendung von “Ankerfeldern” um Informationen die auf einer Seite “wandern” und keine fixe Position haben, z.B. den Endbetrag einer Rechnung, finden und auslesen zu können.

Download – PDFmdx Template Editor & Processor >>>

PDFmdx – Eingangsrechnungen erkennen, auslesen und strukturiert ablegen – Produktvideo

PDFmdx kann PDF Dokumente z.B. Eingangsrechnungen an Hand von Textinhalten über Kriterien erkennen, in Einzeldokumente aufteilen und Felder auslesen. Die ausgelesenen Felder und Texte können für die Benennung, sowie für die strukturierte Ablage oder den Import der Belege verwendet werden.

Das nachfolgende Video zeigt an Hand von Eingangsrechnungen wie es geht:

Download – PDFmdx Template Editor & Processor >>>

PDFmdx – Dokument über Barcode teilen – Produktvideo verfügbar

PDFmdx kann Dokumente auch an Hand von Barcodes erkennen, in Einzeldokumente aufteilen und ausgelesene Barcodes für die Ablage verwenden. Welcher Barcode verwendet wird kann über den Bereich, den Barcode-Typ bzw. auch über Bedingungen festgelegt werden. Das Teilen kann über Änderung des Inhaltes oder über Bedingungen erfolgen. Trennblätter die Barcodes enthalten lassen sich auch löschen.

Das nachfolgende Video zeigt wie es geht:

Download – PDFmdx Template Editor & Processor >>>

PDFmdx – Positionsdaten über Gruppen- / Untergruppenfelder auslesen

PDFmdx kann neben Dokumentenfeldern auch Positionsdaten auslesen. Positionsdaten sind Listen oder Tabellen mit Zeilen und Spalten. Diese finden sich typischerweise auf Rechnungen um mehrere Positionen im Beleg anzuführen. Wir verwenden dafür den Begriff einer “gleitenden Gruppe/Untergruppe”. Dabei werden ein oder mehrere Spalten (=Felder) über eine oder mehrere Zeilen auf einer oder mehreren Seiten in einem vertikal festgelegten Bereich gesucht und ausgelesen.

Ab der PDFmdx Version 3.5.0 gibt es eine 2-stufige Struktur wo neben der Gruppen auch eine Untergruppen Ebene möglich ist. Es können also zu einem Gruppen-Datensatz ein oder mehrere Untergruppen-Datensätze erkannt und ausgelesen werden. Belege mit 2-stufige Positionsdaten gibt es z.B. bei Textilien oder bei Bekleidung wo es zu einem Artikel (Nummer, Beschreibung) auch eine “Unterebene” mit Größen bzw. Farbangaben geben kann. Der Artikel selbst wird nur einfach angeführt und in der Ebene darunter finden sich dann  die Mengen / Preise zu einzelnen Ausprägungen.

Zweistufiges Auslesen von Positionsdaten:

  • “Dokumenten/Gruppen/ Untergruppen” Felder definieren die Erkennungsebene.

  • Ein über 2 rote horizontale Begrenzungslinien festgelegter Bereich wird auf allen Seiten des Dokuments nach den Gruppen- (rote Felder) sowie Untergruppen-Datensätzen (grüne Felder) abgegescannt.

  • Über die festgelegten Bedingungen werden die Gruppen- (G) sowie die zugehörigen Untergruppen- (U) Datensätze identifiziert und ausgelesen.

  • Zusammen mit den Datensätzen der untersten Ebene stehen auch die Informationen der Gruppen- und der Dokumentenfelder zur Verfügung.

Für Tests und als Ausgangspunkt für eigene Versuche haben wir zwei Beispiel-Vorlagen mit PDF-Testdateien erstellt. Die *.pmdx Vorlagen müssen nur per Drag&Drop in den PDFmdx Editor importiert und der Ausgabepfad gegebenenfalls angepasst werde. Für die Verarbeitung ist es dann noch erforderlich im PDFmdx Prozessor ein Job mit Eingangs- und Error-Folder anzulegen und die beiden Test-Vorlagen für den Job auszuwählen.

Download – PDFmdx – Vorlagen und Beispiele für zweistufiges Auslesen von Positionsdaten >>>
Download – PDFmdx Template Editor & Processor >>>

PDFmdx Version 3.5.3 verfügbar

Neuerungen PDFmdx Version 3.5.3:

  • Feld / Bereichs OCR / Bereich invertieren / OCR immer ausführen:

Normalerweise werden für die PDFmdx Verarbeitung PDF Dateien als Input verwendet die bereits Text enthalten – entweder “normale” PDF oder gescannte PDF die über einen vorangegangenen OCR Prozess (z.b. über AutoOCR oder FileConverterPro) eine zusätzliche Textebenen erhalten haben.

PDFmdx verfügt auch über eine integrierte OCR Funktion um den Text in den Bereichen der positionierten Feldern aus der Bildinformation ermitteln zu können.

Bei den allgemeinen PDFmdx OCR Einstellungen gibt es die Möglichkeit festzulegen wie die Texte aus dem PDF gewonnen werden sollen – “Original”, “OCR” oder “SmartOCR”. Bei “Original” wird der Text immer aus dem PDF genommen, bei OCR – wird der Text immer über einen PDFmdx OCR Vorgang gewonnen, auch falls bereits ein Text im PDF vorhanden ist. Bei der “SmartOCR” Einstellung wird die PDFmdx OCR Funktion nur ausgeführt falls im PDF noch kein Text vorhanden ist, ansonsten wird der im PDF vorhandene Text genommen. Diese Einstellungen gelten generell für die ganze Vorlage und alle damit verbundenen Layouts.

In dem Zusammenhang gibt es jetzt 2 neue Funktionen die es ermöglichen weißen Text auf schwarzem Hintergrund zu erkennen.

Einzelne Bereiche mit Text in weißer Schrift auf schwarzen Hintergrund können über einen automatischen OCR Vorgang nicht erkannt werden, da vor dem OCR Vorgang der Bereich invertiert werden müsste um erkannt werden zu können. Das kann nur interaktiv erfolgen in dem der zu Bereiche manuell ausgewählt wird.

Im PDFmdx Editor gib es jetzt die Möglichkeit bei der Feldkonfiguration die Option “Bereich invertieren” zu aktivieren. Dabei wird für die OCR Verarbeitung der Feldbereich invertiert. Dadurch entsteht schwarze Schrift auf weißem Hintergrund welche durch die OCR erkannt werden kann.

In dem Zusammenhang gibt es eine weitere neue Feldfunktion “OCR immer ausführen” – Damit kann die generelle Einstellung „SmartOCR“ übersteuert werden. Die OCR Erkennung wird dann für dieses Feld immer ausgeführt, auch wenn bereits ein darunterliegender Text vorhanden ist.

  

  • PDFmdx Editor – Bedingung suchen, Layout aufrufen: Es gib jetzt eine Suchfunktion um in den Bedingungen nach einem (Teil)String zu Vorwärts und Rückwärts zu suchen. Damit kann eine Zeile in den Bedingungen direkt angesprungen werden. Aus der Bedingungszeile kann dann auch das verknüpfte Layout direkt aufgerufen werden. Diese Funktion erleichtert die Arbeit mit einer großen Zahl an Bedingungen.

  • Die Web-Service Funktionen wurden überarbeitet, im Web-Service Beispiel können die Metadaten jetzt auch als XML heruntergeladen werden.
  • Bei der Metadaten XML wurden die neu hinzugekommenen Variablen JobID, JobName, JobDescription und ProzessID ergänzt.

Download – PDFmdx Template Editor & Processor >>>

PDFmdx Version 3.5.0 verfügbar

Neuerungen PDFmdx Version 3.5.0:

  • Untergruppen – zusätzliche Hierarchie für gleitende Gruppen: Eine gleitende Gruppe dienen dazu um z.b. Rechnungspositionen die in einem Dokument bzw. auf einer Seite mehrfach vorkommen zu erkennen und um daraus mehrere Datensätze bilden zu können. Es gibt jedoch Belege bei denen diese Datensätze eine weitere Hierarchiestufe erfordern, z.b. falls unter einer Position mehrere Unterdatensätze vorkommen um z.B. verschiedene Ausprägungen eines Artikels nach Farbe oder Größe zu unterscheiden. Das kann entweder als Liste oder aber auch in Form einer Matrix erfolgen. Um solche zusätzlichen Ausprägungen auch erkennen und auslesen zu können gibt es jetzt die Möglichkeit “Untergruppen” zu einer gleitenden Gruppe zu bilden.

Es gibt damit jetzt 3 Feldebenen – die “Dokumentenfelder”, die “Gruppenfelder” und die “Untergruppenfelder”. Untergruppen-Datensätze werden wie die Gruppen-Datensätze über Bedingungen definiert. Bei der Ausgabe stehen für Untergruppen-Datensätze auch die Information des Dokuments und der Gruppe zur Verfügung.

Für die Ausgabe kann konfiguriert werden ob – alle Datensätze ausgegeben, oder ob die Gruppen bzw. der Dokumenten Datensätze unterdrückt werden sollen. Die Felder der darüber liegenden Ebenen stehen bei der Ausgabe auch im Gruppen / Untergruppen-Datensatz zur Verfügung.  Zur Identifikation der Datensatzebene kann die Variable  %RECORD_LEVEL% mit den Werten (D)ocument, (G)roup, (S)ubgroup verwendet werden.

Die Felder der unterschiedlichen Ebenen werden im PDFmdx Editor farblich unterschiedlich dargestellt – Dokumentenfelder “Blau”, Gruppenfelder “Rot” und Untergruppenfelder “Grün”.

Der Arbeits-/Suchbereich für die gleitende Gruppe / Untergruppe wird im PDFmdx Editor über 2 horizontale rote Linien dargestellt, welche Vertikal in der Voransicht positioniert werden können. Die Suche nach Datensätzen erfolgt nur innerhalb des festgelegten Bereichs.

  • MS-SQL Datenbank Support für Metadaten / Log & Error Log Funktion: Neben dem Export der Metadaten in eine XLSX / CSV / XML Datei gibt es jetzt auch die Möglichkeit die Datensätze in MS-SQL Datenbank-Tabellen zu schreiben. Die ausgelesenen Werte werden als Dokumenten / Gruppen / Subgruppen Datensätze mit konfigurierbaren Feldern und Inhalten geschrieben, die Log- Tabelle mit einem fix festgelegten Aufbau.

MS-SQL Export Funktionen:

    • Konfiguration – MS-SQL Server / Datenbank.
    • SQL Tabellen anlegen / löschen / Daten aus den Tabellen löschen.
    • SQL Spalten in der ausgewählten Tabelle anlegen / löschen.
    • Für jedes Template kann, der SQL Export aktiviert, sowie die SQL Tabelle ausgewählt werden. Jeder SQL Spalte können Felder (Variablen) oder fixer Text zugeordnet werden.
    • SQL – Logging / Error Log aktivieren. Der Name der Log-Tabelle ist konfigurierbar.
    • Das SQL-Log enthält folgende Informationen: PROCESS_ID, Rechnername (WsName), Benutzername (UserName), Vorlage (Template), Layout, Status (OK, ERROR), Fehler Code (ErrorCode), Fehlernachricht als Text (ErrorMessage), Info über die Ein / Ausgabedatei (InputPath, InputFileName, InputFolder, OutputPath, OutputFileName, OutputFolder), Beginn/Ende der Verarbeitung (StartTime, EndTime), Verarbeitungsdauer (ProcessingTime).

PDFmdx Fehler Codes im Log:

    • 0 = Erfolgreiche Verarbeitung.
    • 1 = Keine im PDF verbleibenden Seiten.
    • 2 = Konfiguriertes Briefpapier konnte nicht gefunden werden.
    • 3 = Fehlende Lizenz.
    • 4 = Fehler beim Laden des Text Plugins.
    • 5 = Fehler beim Schreiben der PDF Datei.
    • 6 = Keine für die angegebenen Kriterien passende Vorlage / Layout gefunden.
    • 7 = Fehler beim Schreiben der Drucker (PCF) Konfigurationsdatei.
    • 8 = Verarbeitungsfehler.
    • 9 = Fehler beim Anlegen des Ausgabe Ordners.
    • 10 = Fehler beim Erzeugen der Ausgabedatei.
    • 11 = Fehler beim Überlagern / Hinterlegen des Briefpapiers.
    • 12 = Fehler beim Signieren.
    • 13 = Fehler beim EMail Versand.
    • 14 = Fehler beim Schreiben der Metadaten.
    • 15 = Fehler beim Erzeugen der XML Datei.

  • PDFmdx Editor – Test Funktion: Die Test-Funktion im PDFmdx Editor und die PDFmdx Verarbeitung basieren jetzt auf der gleichen Komponente. Damit wird sicher gestellt dass das Ergebnis beim “Test” im PDFmdx Editor für die Erkennung, das Teilen und Auslesen das gleiche Ergebnis bringt wie bei der Verarbeitung durch den PDFmdx Prozessor.

In einer PDFmdx Vorlage kann konfiguriert werden ob und wie ein Layout über Bedingungen identifiziert werden soll. Bei der “Test” Funktion im PDFmdx Editor werden die Bedingungen geprüft, das erkannte Layout identifiziert und die über das Layout festgelegten Felder ausgelesen. Auf der Test-Maske gibt es jetzt eine Checkbox um die Layout-Erkennung / Kriterien zu ignorieren. Die Felder werden dann nur über das manuell ausgewählte Layout gelesen und angezeigt.

  • Feld-Teilstring vom Ende. Die Teilstring-Feldfunktion ist jetzt nicht nur vom Beginn eines Feldes, sondern auch vom Ende aus möglich (umschaltbar).

  • Neue OCR Version, mehrere Erkennungssprachen: Die Bereichs OCR Funktion für Felder wurde aktualisiert und basiert jetzt auf der Tesseract Version 4.0. Damit ist jetzt auch die Erkennung mehrere Sprachen möglich.

  • Vorgabewerte für Felder – Layout bezogen: Es gibt neben der Funktion einen generellen Vorgabewert zu vergeben, jetzt auch eine Funktion um für jedes Layout einen individuellen Vorgabewert für ein Feld zu vergeben. Eine Variable bekommt den Vorgabewert zugewiesen falls das Feld auf einem Layout nicht positioniert wurde bzw. wenn ein Feld positioniert wurde  aber nichts ausgelesen werden kann da der Bereich leer (=blank) ist. Damit kann über die Layouterkennung einer Variablen ein fixer Wert zugewiesen werden. z.b. eine Kundennummer die nicht direkt aus dem Dokument ausgelesen werden kann.
  • Neuer “Zusammengesetzt” Feldtyp: Der Typ “Zusammengesetzt” erlaubt es kombinierte Felder zu erzeugen, die aus mehreren anderen Feldern bzw. Text bestehen. Solche zusammengesetzten Felder stehen für die Ausgabe (Ordner, Dateiname, Metadaten), nicht jedoch für Bedingungen zur Auswahl. Diese Felder können aus Variablen der Dokumenten / Gruppen und Untergruppen zusammengesetzt werden.

  • Option – Keine verbleibenden Seiten – Dokument nicht in den Fehler Ordner verschieben: Beim Teilen, Löschen von Seiten (Deckblätter) sowie Löschen von leeren Seiten kann es vorkommen dass das Restdokument über keine weiteren für die Verarbeitung verbleibenden Seiten mehr verfügt. Diese Option legt fest ob das “Rumpfdokument” erhalten bleiben soll und in den Fehler Ordner verschoben wird oder ob ein solches Dokument nicht erhalten bleibt und der Vorgang nur im Error-Log protokolliert wird.

  • Export zusätzlicher Formate, auswählbar für – „Erfolgreich / Fehler / Beides“: Damit ist es jetzt auch möglich die in den Error Folder verschobenen PDF Dateien zusätzlich in andere Formate z.b. TXT zu konvertieren um weitere Auswertungen durchzuführen.

Download – PDFmdx Template Editor & Processor >>>

PDFmdx Version 3.3.0 verfügbar

Neuerungen PDFmdx Version 3.3.0:

  • Zusätzliche Formate exportieren – Über die Integration des PDF2DOCX Konverters können zusätzlich zum erzeugten PDF jetzt auch ein HTML, DOCX, XML, TXT und XLS erstellt werden. Diese zusätzlichen Dateien werden aus dem erstellten PDF erzeugt und im gleichen Ausgabepfad wie das PDF abgelegt. Es können gleichzeitig ein- oder mehrere zusätzliche Datei-Formate erzeugt werden.

  • PDFmdx Editor – Speichern und Laden der im Editor erstellten Bedingungen als XML Datei um verschiedene Zustände der Bedingungen einfach und schnell speichern und wieder laden zu können. Der Dateiname wird beim Speichern  automatisch auf Basis von – Vorlagenname, Datum und Uhrzeit vorgeschlagen.

  • PDFmdx Editor – Bedingungen nach oben / unten bzw. an den Anfang / Ende – verschieben. Damit können Bedingungen einfach neu sortiert und gruppiert werden um zusammengehörige Zeilen untereinander anzuordnen.

 

  • PDFmdx Editor – Bedingungen – Trennlinie einfügen / umbenennen. Bedingungen können mit zusätzlichen Trennzeilen versehen werden um die Lesbarkeit und Übersichtlichkeit umfangreicher Strukturen zu erhöhen. Eine eingefügte Trennzeile kann entfernt und der Text kann wieder bearbeitet werden.

  • Fehlerkorrektur – Eine Aktion welche mit einer Bedingung – Erkennen, Teilen, Löschen, Gleitende Gruppen – verknüpft ist kann auf bestimmte Seiten begrenzt werden. Z.B. Nur auf die erste oder auf die erste und zweite Seite. Damit lässt sich die Verarbeitung beschleunigen, da nicht alle Seiten eines Stapels durcharbeitet werden müssen Es wurde der Fehler behoben dass die Angabe der Seitenbeschränkung nicht angewendet und immer alle Seiten durchsucht wurden. Mit der Version 3.3.0 werden jetzt nur die angegebenen Seiten verarbeitet.

  • Feldinhalte aus gelöschten Seiten erhalten. Werden Seiten über Bedingungen gelöscht so war es bisher nicht möglich die Feldinformation von diesen Seiten für Bedingungen, für die Ausgabe der Metadaten sowie auch für die Bildung des Pfads und Dateinamens zu verwenden. Z.B. um einen Barcode Wert eines Deckblattes als Dokumenten-Kennung, für die Trennung eines Stapels, für die Auswahl des Layouts, für den Dateinamen zu verwenden und um schlussendlich diese Trennseite zu löschen. Um Feldinhalte trotz der Löschung von Seiten zu erhalten gibt es jetzt bei der Felddefinition die Option „Erhaltener Wert“. Damit ist es möglich in einem Schritt mit einer einzigen Bedingung eine Layout zu erkennen, den Stapel zu teilen, die Seiten zu löschen und den ausgelesenen Wert für den  Dateinamen zu verwenden.

  • PDFmdx Editor – Vorlagen / Layout-Struktur als XML speichern. Die Baumstruktur der im PDFmdx Editor erstellten Vorlagen und Layouts kann in eine XML Datei weggeschrieben und beim Beenden des PDFmdx Editors automatisch aktualisiert werden.

  • PDFmdx Editor – Neuer Feldtyp – „Dateiname“ – Damit kann der Dateiname der Eingangsdatei auch für die Bedingungen der Verarbeitung und Layout-Erkennung verwendet werden. Z.B. kann das zu verwendende Layout damit über den Dateinamen bzw. Teile des Namens gesteuert werden.

    

  • PDFmdx Editor – Bedingungen – Direkte Auswahl des zu verwendenden Layouts über Option <VALUE>. Will man ein Layout über einen Wert einer Variablen z.b. über den Dateinamen auswählen so muss entweder für jedes Layout eine eigene Bedingung erfasst und mit „OR“ verknüpft werden oder man verwendet bei den Bedingungen die Auswahl <VALUE>. Damit wird die angegebene Variable automatisch gegen jeden für die Vorlage angelegten Layout Namen geprüft und jene Layout-Vorlage ausgewählt bei dem der Layout-Name mit dem Inhalt des Feldes übereinstimmt.

 

  • %FILENAME% Variable – Die Groß / Klein Schreibung des Dateinamens bleibt erhalten – bisher wurde der Dateiname immer in Kleinbuchstaben umgewandelt.
  • Datei überschreiben / Zähler anhängen – Es gibt jetzt eine Option um bei der Verarbeitung Dateien mit gleichem Namen zu überschreiben. Ist diese Option nicht angehakt so wird wie bisher eine neue Datei angelegt und ein Zähler an den vorhandenen Dateinamen angehängt.

Download – PDFmdx Template Editor & Processor >>>