Kategorie: Metadaten

PDFmdx – Dokumente erkennen, Splitten und Metadaten extrahieren

PDFmdx ist eine Anwendung um PDF Dokumente auf Grund von definierten Bedingungen und Inhalten zu erkennen, zu klassifizieren sowie Gesamtdokumentenpackages in Einzeldokumente aufzusplitten.

Aus den klassifizierten und gesplitteten Einzeldokumenten werden an Hand von vordefinierten Feldtemplates die gewünschten Inhalte (Metadaten) ausgelesen und für die Weiterverarbeitung in eine Indexdatei geschrieben.

Auf diese Art und Weise lassen sich sowohl PDF Dokumente die direkt aus einer beliebigen Anwendung heraus z.B.: per PDF-Druckertreiber erzeugt, aber auch eingescannte Dokumente die per OCR Vorgang in durchsuchbare PDF´s (Image im Vordergrund und Text im Hintergrund) konvertiert wurden verarbeiten.

Neben der Erkennung, Aufteilung und Extraktion von Bereichsinhalten verfügt PDFmdx auch über weiterverarbeitende Funktionen zur Automatisierung von Abläufen.

  • PDF Briefpapier kann hinterlegt / überlagert werden.
  • PDF Signatur kann sichtbar / unsichtbar aufgebracht werden.
  • E-Mail Versand kann durchgeführt werden, wobei die für das E-Mail erforderlichen Informationen aus dem Dokumenteninhalt gewonnen werden.

Die Anwendung besteht aus zwei Programmteilen – dem PDFmdx Template Editor und dem PDFmdx Prozessor. Mit dem Template Editor werden die Kriterien und Verarbeitungsschritte konfiguriert und der Prozessor verarbeitet die Dokumente auf Basis der Templates.

PDFmdx – Einsatzbereiche:

  • Automatische Archivierung von Reports aus ERP, Lohnverrechnung usw. – Erkennung der Reporttypen, Extraktion von Metadaten für die Archivierung.
  • Automatische Archivierung von Rechnungen, Lieferscheinen, Auftragsbestätigungen über PDF Druckvorgang.
  • Automatische Weiterverarbeitung von Belegen – Versand von Terminbestätigungen, Rechnungen, Mahnungen, Auftragsbestätigungen per Einzel bzw. Gesamtdruckvorgang überPDF Druckertreiber oder PDF-Export – Hinterlegen von Briefpapier, Elektronische Signatur, E-Mail Versand.
  • Eingangs-Belegerfassung über Scanvorgang mit PDF-OCR : Belegerkennung und Metadatenextraktion für die Weiterverarbeitung bzw. Archivierung.

PDFmdx Template Editor – zur Erstellung von Templates für den PDFmdx Prozessor

01_PDFmdx Template Editor

Templates sind die Voraussetzung um die Dokumente zu kategorisieren, zu splitten und die gewünschte Information daraus auszulesen. Templates legen auch die zusätzlichen Verarbeitungen fest: Under/Overlay, Signatur und E-Mail Versand.

Zuerst müssen Kategorien erstellt werden – diese legen die Felder, Typen, Ausgabefolder und den Aufbau der Indexdatei fest. Kategorien werden dann in den Templates verwendet  und müssen nicht jedes Mal neu definiert werden. Z.B.: Die Feld/Datenstruktur für Eingangsrechnungen unterschiedlicher Lieferanten ist immer gleich – das Aussehen der unterschiedlichen Rechnungen, die Position und Anordnung der Felder ist jedoch immer verschieden. Also muss eine Kategorie für Eingangsrechnungen angelegt werden und dann pro Lieferant ein Template.

Funktionen – PDFmdx Kategorien:

03_Definition der Profil Kategorien - Felddefinitionen

  • Kategorien werden über Namen verwaltet – Neu anlegen, Kopieren, Umbenennen.
  • Auswahl Zielfolder für Indexdaten – entweder eine zusammengefasste Indexdatei für alle Dokumente oder pro Dokument eine Indexdatei.
  • Definition des Indexdatei Aufbaus – Text, Variablen und Felder sind verwendbar.
  • Definition – Zielfolder sowie Dateiname für die PDF Dokumente – auch unter Verwendung von Variablen / Feld-Inhalten.
  • Felddefinition – Name, Typ (Text, Ziffern, Buchstaben, Buchstaben und Ziffern), Führende Nullen entfernen, Entfernen von Text oder Zeichen Links oder Rechts z.b. „(123)“, Groß und Kleinschreibung ignorieren.
  • Felder hinzufügen, löschen, verschieben hinauf / hinunter.
  • Definition – Dezimal- und Tausender Trennzeichen – Punkt, Beistrich, Kein.

Funktionen – PDFmdx Template Editor:

02_PDFmdx Template Editor

  • Templates werden über Namen verwaltet und ausgewählt – Template Laden, Speichern, Kopieren, Neu anlegen, Umbenennen, Löschen.
  • Template exportieren / importieren – Alle benötigten Dateien werden in einer ZIP Datei zusammengefasst  gespeichert / geladen. Templates können damit auf andere Rechner oder PDFmdx Verarbeitungsstationen übertragen werden.
  • PDF Prototyp auswählen und dem Template zuordnen – Eine PDF Musterdatei wird ausgewählt und angezeigt und dient als Grundlage für die visuelle Positionierung der Felder.
  • Profil Kategorie auswählen – Damit wird das Template um die Feld-Definition sowie die Festlegung der Ziel-Folder /Namen ergänzt.
  • Grundeinstellungen Template Editor:  Auswahl der Text Extraktions Komponente, Farb- & Transparenz-Zuordnung für die visuelle Felddarstellung.

Funktionen – Voransicht PDF-Musterdatei:

  • Seite blättern, Seite per Nummer auswählen, Erste/Letzte Seite, Zoom In/Out, Anpassen – Breite/Höhe/Optimal anpassen.
  • Auswahl der über die Kategorie zur Verfügung gestellten Felder, Positionierung und Größenanpassung der Feld-Bereiche im PDF Viewer, Anzeige der Feld-Bereichsinformation (Seite, Bereichskoordinaten, Extrahierter Text, Kategorie, Feldname, Ziel Ordner).
  • Statusanzeige – Position, Größe, Seitengröße, extrahierter Text.

Konfiguration – Verarbeitungsfunktionen:

PDF-Overlay / Underlay
– auswählen /aktivieren/ deaktivieren, Nur erste Seite/Erste Seite auf allen Seiten anwenden/Erste Seite auf der ersten Seite und 2.Seite auf den Folgeseiten anwenden.

08_Template Settings Stationery

PDF-Signatur – aktivieren/deaktivieren, Auswahl Zertifikat, Zusatzinformationen für Signatur: Kontakt, Standort, Grund. Auswahl der Seite für die Signatur: Erste, Letzte, bestimmte Seite. Sichtbare Signatur: Positon (X/Y), Ankerpunkt, Größe (X/Y), Skalierung, Bild für die Darstellung auswählen.

09_Template Settings Signatur

PDF-Metadaten – Titel, Autor, Betreff, Schlüsselworte, Anwendung – fixer Text bzw. Verwendung von Variablen und Feldinhalten, Auslesen und Einfügen der bestehenden PDF-Metadaten über Variable möglich.

10_Template Settings PDF Metadata

Allgemeine Template Einstellungen – Referenzpunkt für die Anwendung des Templates auf dem zu verarbeitenden Dokument, Horizontal / Vertikal – Links / Mitte / Rechts. Erlaubte Toleranz der Seitengröße – Template und Verarbeitung.

11_Template Settings Allgemeine Einstellungen

Template Erkennungs- / Split-Bedingungen:

  • Anlegen und Bearbeiten der Bedingungen zur Erkennung des Templates – Vergleichstext/Suchbegriff – fix oder unter Verwendung von „Wildcards“ (*?#), in einen  bestimmten Feld / Text der ganzen Seite, Festlegung der zu durchsuchenden Seiten (Einzelseiten, Intervall, $ – bis zur letzten Seite).
  • Hierarchisch logische Verknüpfung der Bedingungen über UND / ODER

05_PDFmdx Template Designer - Template Recognition

  • Definition der Bedingungen für den Dokumentensplit  – auf Basis des Templates – Teilen nach fix definierten Seiten, Teilen falls sich der Inhalt eines bestimmten Feldes verändert, Teilen auf Basis von hierarchisch logische Bedingungen über UND / ODER gleich wie bei der Template Erkennung.

06_PDFmdx Template Designer - Split conditions

E-Mail Versand – Die Dokumente können auch automatisiert per SMTP E-Mail verschickt werden – im Template Editor wird eine E-Mail Vorlage für den Versand hinterlegt.

  • Eine individuelle über das Template gesteuerte oder allgemeine Absender E-Mail Adresse verwenden.
  • „an:“, „cc:“, „bcc:“ – fix, über Feld-Variablen, bzw. über Dokumenten E-Mail Adress-Suche belegbar. Für die Suche – Definition der zu durchsuchenden Seiten, Ausschließen von E-Mail Adressen.
  • Betreff, HTML E-Mail Body  – fixer Text bzw. Verwendung von Variablen und Feldinhalten
  • Anhängen zusätzlicher statischen E-Mail Attachments.

12_Template E-Mail Einstellungen

Template Test-Funktion – Im Template Editor ist eine Testfunktion vorgesehen mit der das aktuelle Template entweder mit der geladenen oder mit einer frei wählbaren PDF Datei getestet werden kann. Dabei werden die Feldnamen und die extrahierten Textinhalte angezeigt. Der „Test“ Button ermöglicht zu überprüfen – ob das aktuelle Template erkannt und bei welchen Seiten die PDF Datei geteilt werden würde.

13_PDFmdx Text Extraction & Split Test Function

PDFmdx – Prozessor:
Der PDFmdx Prozessor kann einen oder mehrere Inputfolder überwachen. Die Verarbeitung kann pro Folder entweder zeitgesteuert in einem bestimmten Intervall erfolgen oder manuell angestoßen werden.

14_PDFmdx processor

Funktionen PDFmdx – Prozessor:

  • Verarbeitungs-Folder – Neu anlegen, Löschen, Umbenennen
  • Templates neu einlesen, Template importieren
  • SMTP – E-Mail Konfiguration: Server, Port, SSL, Absender E-Mail, Benutzername, Passwort, Test E-Mail, Eigene E-Mail Konfiguration für Fehler.
  • Auswahl Input-Folder, Error-Folder
  • Versand von E-Mail aktivieren / deaktivieren – falls im Template eine E-Mail Funktion definiert wurde  kann diese hier generell für den ganzen Folder und allen zugeordneten Templates deaktiviert werden.
  • Folder-Scan Intervall festlegen, Anzeige der verbleibenden Zeit bis zum nächsten Scan, Automatisierten Folder-Scan aktivieren / deaktivieren. „Scan-Now“ Button.
  • Template – Auswahl: dabei wird für den aktuellen Folder festgelegt welche der vorhandenen Templates für die Dokumentenerkennung verwendet werden sollen.  Die Templates werden der Reihen nach abgearbeitet, bei der ersten Übereinstimmung der Kriterien wird die Verarbeitung mit dem gefundenen Template gestartet.
  • PreSplit der Dokumente: Normalerweise erfolgt zuerst eine Template-Erkennung und auf Basis des ersten erkannten Templates. Danach wird, falls vorgesehen das Gesamtdokument einer Aufteilung  unterzogen. Das funktioniert jedoch nur dann wenn es sich um gleiche Dokumente handelt. Sind jedoch verschiedene Dokumententypen im Stapel vorhanden so muss dieser zuerst in Einzeldokumente aufgeteilt werden. Um diese danach gegen die vorhandenen Templates zu identifizieren.
  • Für die PreSplit Funktion ist ein eigenes Template erforderlich – dieses dient jedoch nur dazu um Felder und Positionen zu haben um Splitkriterien aufbauen zu können – die Split-Bedingungen sind hierbei dem Ordner zugeordnet.

Download – PDFmdx Template Editor & Processor >>>

eDocPrintPro Plugin – EmbedFiles – Dateien in PDF Dokumente einbetten

Mit dem eDocPrintPro Plugin – EmbedFiles – ist es möglich beim Druckvorgang vorhandene Dateien automatisch in das erzeugte PDF Dokument einzubetten.

PDF ist ein Containerformat das auch in der Lage ist ganze Dateien im Binärformat einzubetten. Damit kann z.b. auch das Originaldokument aus dem das PDF erzeugt wurde eingebettet, archiviert oder übermittelt werden. Es können aber auch Metadaten zu dem Dokument archiviert oder an ein anderes System weitergegeben werden. Z.b. lassen sich auf diese Weise zu einer Rechnung oder Lieferschein die gesamte Rechnungs-Information als XML Datei einbetten. Die eingebetteten Dateien können dann  über den freien Adobe Reader wieder extrahiert oder direkt aus der PDF Datei heraus per Doppelklick aufgerufen werden. Ebenso können die Dateien per Commandline Tool bzw. COM / .NET Komponente wieder ausgelesen und lokal abgespeichert werden. Neben dem eDocPrintPro Plugin zum automatischen Einbetten von Dateien bieten wir Softwareentwickern dafür auch die entsprechenden Werkzeuge an.

Funktionen eDocPrintPro Plugin – EmbedFiles

  • automatisches Einbetten von Dateien in PDF´s bei der Erzeugung
  • Einbetten aller Dateien aus einem Verzeichnis – mit und ohne Filter
  • Einbetten einzelner oder mehrerer bestimmter Dateien – Folder / Name
  • Dateien werden nach den eingestellten Kriterien gesucht / eingebettet und anschließend gelöscht
  • Dateien können  per Adobe Reader, Commandline Tool oder .NET / COM aus dem PDF wieder extrahiert bzw. von dort aus aufgerufen werden.

Anwendungsbereich:

  • Archivierung
  • Datenaustausch zwischen unterschiedlichen Systemen – z.b. für Metadaten oder XML

eDocPrintPro_Plugin_Embed_files eDocPrintPro_Plugin_Embed_files_1

Interesse an einer solchen Lösung ? >>>

eDocPrintPro Plugin – Metadaten abfragen und als XML ins PDF einbetten

Wir haben für ein Projekt einen eDocPrintPro Plugin entwickelt der es ermöglicht Metadaten bei der Druckausgabe über eine Profilmaske abzufragen. Die über diese Maske erfaßten Informationen werden in Form einer XML Datei gespeichert und in das erzeugte PDF Dokument als Attachment mit eingebettet. Die im PDF eingebettete XML Datei bekommt den gleichen Namen wie das erzeugte PDF. Nach Abschluss dieses Vorgangs wird eine zusätzliche „Triggerdatei“ (*.sem) erzeugt um den nächsten nachgelagerten Verarbeitungsschritt anzustoßen.

In dem Projekt geht es darum Patientenbefunde dezentral zu erfassen an einen zentralen Server zu übertragen. Die einfachste „Schnittstelle“ die unabhängig von den verwendeten Anwendungen am Client funktioniert ist ein Druckvorgang der eine PDF Datei erzeugt. Die Metadaten zu den Befunden werden über die Maske abgefragt in das PDF eingebettet, danach wird die PDF Datei an den Server übertragen. Die XML Metadaten werden aus dem PDF extrahiert und für die weitere Archivierung und Verarbeitung verwendet.

Funktionen:

  • eDocPrintPro Plugin zur Erfassung von Dokumenten-Metadaten
  • Konfigurationsmöglichkeit der Klassifikation sowie der StandortID
  • Erzeugen eines PDF Dokuments über einen Druckvorgang
  • Abfrage der Metadaten über Profilmaske (Name, Geb. Datum,  Klassifikation, Beschreibung)
  • Erstellen einer XML Datei mit den Metadaten
  • Einbetten der XML Datei als Attachment in das PDF Dokument
  • Erzeugen einer Triggerdatei, Übertragen an einen Server, Extrahieren der XML-Metadaten, Archivieren des PDF am Server auf Basis der extrahierten Metadaten.

Dieses Plugin  ist ein gutes Beispiel dafür welche Möglichkeiten der Automatisierung und des Workflows durch die Entwicklung und die Verwendung von individuell angepaßten eDocPrintPro Plugin´s gegeben sind.

Konfiguration Standardeinstellungen Abfrage über Profilmaske XML Datei als Attachment im PDF Erfasste Metadaten - Aufbau der XML Datei

Testseite mit XML Attachment >>>
XML Datei mit Metadaten >>>
Download – eDocPrintPro Plugin Ask for Metadata >>>

Webshop