PDFmdx – Positionsdaten über Gruppen- / Untergruppenfelder auslesen

PDFmdx kann neben Dokumentenfeldern auch Positionsdaten auslesen. Positionsdaten sind Listen oder Tabellen mit Zeilen und Spalten. Diese finden sich typischerweise auf Rechnungen um mehrere Positionen im Beleg anzuführen. Wir verwenden dafür den Begriff einer “gleitenden Gruppe/Untergruppe”. Dabei werden ein oder mehrere Spalten (=Felder) über eine oder mehrere Zeilen auf einer oder mehreren Seiten in einem vertikal festgelegten Bereich gesucht und ausgelesen.

Ab der PDFmdx Version 3.5.0 gibt es eine 2-stufige Struktur wo neben der Gruppen auch eine Untergruppen Ebene möglich ist. Es können also zu einem Gruppen-Datensatz ein oder mehrere Untergruppen-Datensätze erkannt und ausgelesen werden. Belege mit 2-stufige Positionsdaten gibt es z.B. bei Textilien oder bei Bekleidung wo es zu einem Artikel (Nummer, Beschreibung) auch eine “Unterebene” mit Größen bzw. Farbangaben geben kann. Der Artikel selbst wird nur einfach angeführt und in der Ebene darunter finden sich dann  die Mengen / Preise zu einzelnen Ausprägungen.

Zweistufiges Auslesen von Positionsdaten:

  • “Dokumenten/Gruppen/ Untergruppen” Felder definieren die Erkennungsebene.

  • Ein über 2 rote horizontale Begrenzungslinien festgelegter Bereich wird auf allen Seiten des Dokuments nach den Gruppen- (rote Felder) sowie Untergruppen-Datensätzen (grüne Felder) abgegescannt.

  • Über die festgelegten Bedingungen werden die Gruppen- (G) sowie die zugehörigen Untergruppen- (U) Datensätze identifiziert und ausgelesen.

  • Zusammen mit den Datensätzen der untersten Ebene stehen auch die Informationen der Gruppen- und der Dokumentenfelder zur Verfügung.

Für Tests und als Ausgangspunkt für eigene Versuche haben wir zwei Beispiel-Vorlagen mit PDF-Testdateien erstellt. Die *.pmdx Vorlagen müssen nur per Drag&Drop in den PDFmdx Editor importiert und der Ausgabepfad gegebenenfalls angepasst werde. Für die Verarbeitung ist es dann noch erforderlich im PDFmdx Prozessor ein Job mit Eingangs- und Error-Folder anzulegen und die beiden Test-Vorlagen für den Job auszuwählen.

Download – PDFmdx – Vorlagen und Beispiele für zweistufiges Auslesen von Positionsdaten >>>
Download – PDFmdx Template Editor & Processor >>>