PDFmdx – Version 2.2.1 – mit vielen Erweiterungen und Neuerungen
Mit der Version 2.x sowie jetzt mit der Version 2.2.1 wurden für PDFmdx eine Vielzahl an Erweiterungen und Neuerungen implementiert.
Neuerungen PDFmdx Template Editor Version 2.x:
Komplett neu gestalteter Template Editor – einem Template können jetzt mehrere Layouts zugeordnet werden. Bisher musste pro Layout ein eigenes Template angelegt werden. Ein Template fasst jetzt alle Layouts zusammen welche die gleichen Felder enthalten und gleich verarbeitet werden sollen. Um z.b. Eingangs-Rechnungen zu verarbeiten gibt es ein einziges Rechnungs – Template mit den Feldern – Firma, Nummer, Datum, Betrag. Pro Lieferant gibt es dann ein Layout um die unterschiedlichen Rechnungsformulare abzubilden. Layouts werden über Bedingungen erkannt und legen die Felder auf dem Formular fest.
Briefpapier über Informationen aus dem Dokument steuern: PDFmdx kann auf die erzeugten Dokumente auch ein PDF-Briefpapier als Überlagerung oder Hinterlegung anwenden. Feldinhalte und Kriterien steuern über den Dokumenteninhalt unterschiedliche Briefpapiere. Ebenso können die Felder auch zur Generierung für Namen und Pfad des PDF Briefpapiers verwendet werden.
Anker Felder – Teilstringsuche und Seitenbereiche: Anker Felder werden benötigt um Referenzstellen in einem Dokument zu finden um andere Felder absolut darauf zu beziehen. Es gibt Informationen die sich weder immer wieder an der gleichen Stelle noch auf der gleichen Seite befinden. Ein typisches Beispiel ist z.b. der Endbetrag einer Rechnung – dieser kann sich auf der ersten, der letzten oder aber auch auf einer x beliebigen Seite befinden. Zusätzlich kann je nach Anzahl der Rechnungs-Positionen der Endbetrag vertikal variieren. Eine fixe Definition würde hier nicht helfen. Eine weitere Herausforderung stellen gescannte Belege dar. Hier kann von Dokument zu Dokument jedes Feld horizontal und vertikal – „wandern“ – je nach dem wie das Dokument in den Scanner eingelegt und gescannt wurde – können sich Verschiebungen und Verzerrungen ergeben. Eine fixe Positionsdefinition würde eine hohe Fehlerrate verursachen.
Um in diesen Fällen die Felder zuverlässig auslesen und verarbeiten zu können haben wir die „Anker-Felder“ implementiert – diese Felder sind Fixpunkte auf welche sich andere Felder dann absolut beziehen können – z.B. Briefpapierköpfe mit Firmennamen oder Texte wie z.b. „Gesamtsumme“ oder „Rechnungsendbetrag“ usw.
Pro Layout können ein oder mehrere Ankerfelder definiert werden auf welche sich andere Felder beziehen können. Die Suche nach den Ankerfeldern kann über Teilstrings oder fixe Texte erfolgen und es kann festgelegt werden ob alle oder nur bestimmte Seiten durchsucht werden sollen.
Seiten löschen – Manchmal ist es erforderlich bestimmte Seiten zu löschen und diese nicht in das Zieldokument zu übernehmen. Z.b. bei Deck- oder Trenn-Blättern. Die Seiten werden wie die Layouts über Bedingungen aus dem Inhalt erkannt.
Teilen & Neu zusammenfügen: PDFmdx ist in der Lage Dokumentenstapel nach Kriterien in Einzeldokumente aufzuteilen – z.b. Über Seitenzahl, über Änderung eines bestimmten Feldes (z.b. Rechnungsnummer) oder über frei festlegbare UND / ODER Kriterien. Neu hinzugekommen ist jetzt auch eine Funktion um die so geteilten Dokumente wieder nach anderen Kriterien zu neuen Dokumenten zusammenzusetzen. Innerhalb des Dokuments kann nach aus dem Dokument ausgelesenen Informationen neu sortiert und über Lesezeichen strukturiert werden. Damit lassen sich z.b. Gesamt-Reports in Einzel-Reports aufteilen und nach anderen Kriterien wieder neu zusammensetzen und strukturieren.
Test – Funktion – wesentlich erweitert: Der Template Editor bietet für die Layouts eine „Test“ Funktion. Diese dient dazu um schon vorab an Hand einer Muster- oder Vorlagendatei – einen Test der Feld-Suche, -Extraktion, -Aufbereitung, der Layout-Erkennung, der Seiten Löschfunktion und der Dokumententeilung – durchführen zu können. Für den Test kann auch eine andere als die für das Layout verwendete PDF Datei ausgewählt werden.
Felder – mit Werten belegen: Im Normalfall können Informationen aus dem Dokument ausgelesen und Feldern / Variablen zugeordnet werden. Es gibt aber Fälle in denen es nicht möglich ist bestimmte Informationen die weggeschrieben werden sollen auszulesen. Z.B. kann es vorkommen dass bei einer Rechnung die per PDF vorliegt der Lieferant für die Gestaltung des Formulars nur Bilder verwendet hat und es daher keinen Bereich gibt über den man den Firmennamen auslesen kann – das Layout aber über andere Kriterien erkannt und eindeutig zugeordnet werden kann. Für den Fall wird das Feld „Firma“ nicht auf dem Layout positioniert, kann aber mit dem Namen der Firma belegt werden um die Information in weiterer Folge als Variable bzw. in den Metadaten verwenden zu können.
Neuerungen PDFmdx Prozessor Version 2.x:
Kopieren nach..: Um z.b. eine einzige Eingabedatei auf mehrere unterschiedliche Arten zu verarbeiten dient die Funktion „Kopiere nach..“ – Dabei muss nur mehr der Name des / der Ziel Jobs aus der Liste ausgewählt werden. Die Übergabe kann auch parallel an mehrere Jobs erfolgen. Alle Eingabedateien des einen Jobs werden dann automatisch auch in die Eingabe-Ordner der anderen Jobs kopiert. Damit können z.b. automatisch mehrere Varianten einer Verarbeitung mit unterschiedlichen Parametern auf einmal ausgeführt werden – siehe auch die Funktion „Teilen & Neu zusammenfügen“
Vorab-Teilen bei Änderung des Layouts / Template: Diese Funktion ermöglicht es Dokumentenstapel vor der weiteren Verarbeitung an Hand der erkannten Layouts bzw.- Vorlagen in Einzeldokumente aufzuteilen und dann weiter zu verarbeiten. Eine Teilung in ein neues Dokument erfolgt sobald sich ein erkanntes Layout ändert. Layouts und Vorlagen werden über die konfigurierten Kriterien erkannt. Es wird nur an Seiten geteilt wo ein Layout erkannt wird.
PDFmdx Service Prozessor – Zeitgesteuerte Verarbeitung: Standardmäßig beginnt die Verarbeitung sobald eine neue Datei in einem der Eingangs-Ordner erkannt wird. Darüber hinaus hat es bisher beim startbaren PDFmdx Prozessor auch die Möglichkeit gegeben die Verarbeitung zeitgesteuert – mit einem eingestellten Intervall von x Minuten, bzw. auch zu einem bestimmten Datum & Uhrzeit oder aber auch täglich zu einer bestimmten Uhrzeit – durchzuführen. Diese Möglichkeit gibt es jetzt auch für den PDFmdx Service Prozessor.