Monat: Oktober 2020

ImageProcessing-FM – PDF, TIFF, JPEG – Bildverarbeitung über Ordnerüberwachung

Funktionen ImageProcessing-FM:

Eine Bildverarbeitung (ImageProcessing) dient dazu die Qualität gescannter Dokumente (PDF, TIFF, JPEG) zu verbessern und zu optimieren bzw. auch um als Vorbereitung für eine nachfolgende OCR Erkennung die Bildqualität für die maschinelle Lesbarkeit zu verbessern, Damit können leere Seiten, schwarze Ränder, Lochungen, Linien und Verunreinigungen entfernt werden. Die FM Version wird als Windows Dienst installiert und kann einen oder mehrere Eingangsordner überwachen.

  • MS-Windows Dienst
  • Mehrere Jobs können angelegt werden um mehrere Eingangsordner zu überwachen.
  • Multithreading / Parallele Verarbeitung gewährleistet einen hohen Verarbeitungs-Durchsatz
  • Konfiguration der Verarbeitungsschritte über Profile (Neu, Kopieren, Bearbeiten, Löschen, Export, Import)
  • Nur der Start Ordner oder auch die ganze Unterordnerstruktur können abgearbeitet werden.
  • Ordnerinhalte können nach der Verarbeitung gelöscht oder die Ordnerstruktur kann erhalten bleiben.
  • Ordnerstruktur aus dem Eingangs-Ordner kann auch in den Zielordner übernommen werden.
  • Dateiverarbeitung über Filter – Name, Erweiterung, Erstellt von/bis, Geändert von/bis.
  • Sortierte Abarbeitung nach Name / Datum sowie auf-/absteigend möglich.
  • Erzeugung eines neuen Dateinamens über Variable (Datum, Zeit, Zähler, Ursprungs-Name/Erweiterung)
  • Löschen der Ursprungsdatei (Verschieben), Kopieren bzw. Erzeugen einer Archivkopie
  • Ordner-Überwachung und Verarbeitungsstart über Datei-System Events – sofort, bzw. mit einer einstellbaren Verzögerung (0-999sek.), bzw. über Zeit-Intervall (in min.)
  • Start der Verarbeitung zu einem eingestellten Datum / Uhrzeit mit optional täglicher / wöchentlicher Wiederholung.
  • Einstellbarer Anzahl an Wiederholungs-Versuchen / Zeit-Intervall falls eine Datei blockiert sein sollte.
  • Logging (Alle Events, nur die Fehler Events)

Bildverarbeitungs Funktionen:

  • Mehrere Funktionen können in einer vorgegebenen Reihenfolge hintereinander ausgeführt werden.
  • Die ausgewählten Funktionen, deren Parameter und Verarbeitungsfolge werden über Profile verwaltet.
  • Profilfunktionen: Neu, Kopieren, Löschen, Umbenennen, In Datei exportieren, Aus Datei importieren.
  • Option um PDF-Scans / Seiten nur mit Bildinformation bzw. alle PDF Seiten zu verarbeiten.
  • Laden einer Musterseite und Test der Bildverarbeitungsbefehle mit Voransicht der Ausgangs- und Ergebnisdatei.
  • Für das PDF Rendering kann die Auflösung, Komprimierung sowie Qualitätsparameter konfiguriert werden.

Einzelfunktionen der Bildverarbeitung:

  • Leerseiten erkennen und entfernen.
  • Seiten automatisch drehen
  • Seiten gerade ausrichten
  • Bilder invertieren (schwarz nach weiß)
  • Schwarzen Rand entfernen
  • Rand beschneiden
  • Verunreinigungen entfernen
  • Lochungen entfernen
  • Linien entfernen
  • Farbe / Graustufen nach Schwarz/Weiß konvertieren

   

Download – ImageProcessing-FM Ordnerüberwachung >>>

PDF2PDFA .NET Konverter – Version 1.7.0 – ZUGFeRD 2.1.1 mit XRechnungs-Profil

ZUGFeRD ist ein hybrides Format und enthält die strukturierten Rechnungsdaten in einer PDF/A-3-Datei. Diese dient der visuellen Darstellung, dem Ausdruck und der Archivierung. Die darin eingebetteten strukturierten XML-Rechnungsdaten können vom Empfänger ausgelesen und verarbeitet werden.

Der PDF2PDFA Konverter ermöglicht die Konvertierung bestehender PDF in ZUGFeRD konforme Dokumente. Die einzubettende XML Datei muss jedoch schon entsprechend dem erforderlichen Standard vorhanden sein und wird vom PDF2PDFA Konverter nicht selbst erzeugt.

In der neuen Version von ZUGFeRD 2.1.1 wird mit dem XRechnungs-Profil ein weiteres Profil zur Verfügung gestellt. Diese neue XRechnungs-Profil entspricht den besonderen Anforderungen der öffentlichen Verwaltung in Deutschland. Es erfüllt nicht nur die Vorgaben der europäischen Norm EN16931, sondern darüber hinaus sind darin auch die nationalen Geschäftsregeln und verwaltungsspezifischen Bestimmungen des deutschen XRechnung Standards enthalten. Das neue dedizierte XRechnungs-Profil unterscheidet klar zwischen Anforderungen in Deutschland und auf europäischer Ebene (z. B. bei Pflichtfelder und -angaben innerhalb der Rechnung).

 

Download – Demo & Testanwendung – PDF2PDFA Konverter >>>
Download – PDF2PDFA-FM – PDF nach PDF/A Konverter mit Ordnerüberwachung >>>
Download – PDF2PDFA-CL – PDF/A – Kommandozeilen Konverter >>>
Download – Readme / Help – PDF2PDFA-CL  >>>
Download – PDF2PDFA-CS – PDF to PDFA Converter Service >>>

AutoOCR-CL – Version 1.1.8 – OCR Kommandozeilen Anwendung

Neuerungen AutoOCR-CL Version 1.1.8:

Mit der Version 1.1.8 wurden die Funktionen der Kommandozeilen Version auf den gleichen Funktionsumfang wie die des AutoOCR Servers gebracht. AutoOCR-CL wurde um eine vorgelagerte Bildverarbeitung, die PDF Komprimierung sowie die Erzeugung von PDF/A konformen Ausgabedateien erweitert.

  • Bildverarbeitung: Diese Funktion ist im Standardumfang enthalten und dient der Vorverarbeitung von gescannten Dokumenten, insbesondere für die iOCR Engine.  Für die Omnipage Engine sollte vorzugsweise die bereits enthaltene Bildverarbeitung verwendet werden. Keinesfalls sollten beide Bildverarbeitungen aktiviert werden da damit die OCR Erkennungsrate reduziert wird.

  • PDFCompressor: Optional zu lizenzieren. Dient dazu um möglichst kompakte und kleine Ausgabedateien zu erzeugen. Um eine gute OCR Qualität zu erreichen ist eine Scanauflösung bei Farbe  von 200/300dpi bzw. bei SW von 300dpi erforderlich. Für die Anzeige bzw. den Ausdruck reichen aber bei Farbe z.b. 150dpi. Der PDFCompressor ermöglicht es die Komprimierung, die Qualitätseinstellungen und die Auflösung der Bilder anzupassen und zu reduzieren. Eine Reduktion durch den PDFCompressor hat keinen Einfluss auf die OCR Erkennungsqualität.

Download – AutoOCR-CL –  Kommandozeilen Anwendung für AutoOCR >>>
Download – Readme / Help – AutoOCR-CL >>>

AutoOCR & AutoOCR light Version 2.0.30 – JPEG2000 Komprimierung erzeugt kompakte PDF Dateien

Farbscans erzeugen meist recht große Dateien, Bei 300dpi, Farbe werden bei der JPEG Komprimierung ca. 300kB an Speicherplatz pro Seite benötigt. Um möglichst kleine, kompakte PDF-Ausgabedateien zu erzeugen wurde für AutoOCR / iOCR die JPEG2000 Komprimierung verbessert und um einen zusätzlichen Parameter erweitert. Durch diese JPEG2000 Komprimierung lässt sich die Größe der im PDF enthaltenen Farbbilder erheblich reduzieren womit die durchsuchbaren PDF-Dateien wesentlich kleiner werden.  Die JPEG2000 Komprimierung hat keinen Einfluss auf die OCR Erkennungsrate.

Bei JPEG2000 steht die “verlustfreie” als auch die “verlustbehaftete” Komprimierung zur Verfügung. Normalerweise sollte man um kleine Dateien zu erzeugen die “lossy” (verlustbehaftete) JPEG2000 Komprimierung verwenden – Dabei gibt es einen zusätzlichen Parameter (Verh.: 1 bis 999) mit dem die Komprimierungsrate und damit die Größe und visuelle Qualität gesteuert werden kann.

In der nachfolgenden Tabelle wurde ein Test mit verschiedenen Einstellungen für die JPEG / JPEG2000 Komprimierung gemacht um zu sehen welche Auswirkungen diese Parameter auf die PDF Dateigröße haben. Als Ausgangsdatei wurde ein Scan, 300dpi, 24Bit Farbe, JPEG Komprimierung, 7 Seiten mit 2082kB, verwendet.

Daran kann man erkennen dass man mit JPEG2000 je nach Parameter eine Reduktionen der Dateigröße zwischen 30 und 80% erreichen kann.

  • JPEG2000 / lossy / 75-100 = Hohe Qualität / größere Dateien – 32-49% Reduktion
  • JPEG2000 / lossy / 125-150 = Mittlere Qualität / mittlere Dateigröße – 59-65% Reduktion
  • JPEG2000 / lossy / 200 – 250 = Niedere Qualität / kleine Dateien- 74-79% Reduktion

Download – AutoOCR – OCR Server inkl. OmniPage OCR (ca. 640MB) >>>
Download – AutoOCR light – Low Cost OCR Server (ca. 410MB) >>>

PDFmdx Version 3.13.2

Neuerungen PDFmdx Vorlagen Editor:

  • Vorlagen teilen: Vorlagen können mit der Zeit auch sehr viele Layouts und Bedingungen enthalten. Enthält z.b. in einer Vorlage mehrere hundert Layouts so wird die Bearbeitung dieser langsam und unübersichtlich. Dafür bietet es sich an mehrere Vorlagen zu verwenden und die Layouts aufzuteilen. Für die Verarbeitung macht es keinen Unterschied. Um bestehende Vorlagen aufzuteilen gibt es dafür jetzt eine eigene Funktion. Dabei wird die Anzahl der Layouts pro Vorlage angegeben. Der PDFmdx Editor erzeugt daraus dann automatisch Vorlagenkopien und teilt die Layouts und die damit zusammenhängenden Bedingungen auf. Danach enthält jede Vorlage nur mehr die angegebene Anzahl an Layouts.

 

  • Layouts kopieren/verschieben: Zusammen mit der Funktion “Vorlagen teilen” wurde auch die Funktion um Layouts in eine oder mehrere andere Vorlagen zu kopieren bzw. auch zu verschieben erweitert und neu implementiert. Bisher war es nur möglich ein Layout in eine andere Vorlage zu kopieren. Jetzt können in einer Vorlage die Layouts (ein oder mehrere) und die Ziel-Vorlagen (ein oder mehrere) ausgewählt werden. Ebenso ist es möglich die ausgewählten Layouts zu verschieben und nicht nur zu kopieren. Die Felder und deren Position in den Layouts bleiben erhalten bzw. werden in der Zielvorlage hinzugefügt.

  • Teilbereiche von Feldern auslesen: Beim Auslesen von Feldinhalten gibt es jetzt eine neue Funktion um gezielt und einfach einen bestimmten Teil eines Textes zu erhalten. z.b Falls ein einziges Feld alle Informationen zusammengefasst und über Trennzeichen z.b. “/” getrennt enthält. z.b. “XKEY GmbH\Gerstlgasse30\1210\Wien”. Mit Hilfe der neu implementierten Regex Funktion kann über die Angabe von “#SPLIT#\” plus der Position im String konfiguriert werden welcher Teil ausgelesen und für die Belegung der Variablen verwendet werden soll. So kann z.b. die PLZ = 1210 durch die Angabe von “#SPLIT#\” + “3” ausgelesen und ermittelt werden.

      

  • Seitenlimit für Verarbeitung konfigurierbar: Oft befindet sich die für die Verarbeitung erforderliche Information nur auf der ersten bzw. auf den ersten Seiten. Um die Verarbeitung sehr umfangreicher PDF Dokumente welche auch einige hundert Seiten umfassen können zu beschleunigen, kann bei der Vorlage jetzt auch ein Seitenlimit (z.B.: 2) gesetzt werden. Damit wird festgelegt dass nur die angegebenen Seiten und nicht immer alle Seiten des Dokuments einlesen und verarbeitet werden.

  • Bedingungs-Editor
    • Einzelne Bedingungen, Teilstrukturen aber auch der ganze Bedingungsbaum kann über das Clipboard von einer Vorlage in eine Andere kopiert werden.
    • Trennzeilen können kopiert / ausgeschnitten und an einer beliebigen Stelle in der Struktur wieder eingefügt werden.
    • (M)emory Funktion um eine bestehende Bedingung als Vorüberlegung für alle neu hinzugefügten Bedingungen zu verwenden. M – setzt die aktuell ausgewählte Bedingung als Default, C – Löscht diese Vorbelegung wieder. Diese Voreinstellung ist Vorlagen spezifisch und wird mit dieser auch gespeichert und wiederhergestellt.
    • Checkbox um festzulegen ob eine neu anzulegende Bedingung am Beginn oder am Ende der aktuellen Ebene in der Baumstruktur eingefügt wird. Bisher wurden eine neue Bedingung immer am Anfang einer Knotenebene eingefügt wodurch es bei großen Baumstrukturen notwendig war die Bedingung immer nachträglich nach unten zu verschieben um wieder an den Ausgangspunkt zu kommen.

   

  • Briefpapier beim Ausdruck / EMail Versand nicht anwenden: Werden Dokumente sowohl auf Drucker ausgegeben bzw. auch als EMail verschickt so kann es erforderlich sein das Briefpapier für die Druckausgabe nicht anzuwenden da sich im Drucker bereits Briefpapier befindet, das EMail aber mit Briefpapier verschickt werden soll. Mit dieser Option kann das gezielt gesteuert werden.

  • Einzeldokumente sortiert zusammenfügen: Um beim Erfassen von Belegen vorher nicht auf eine bestimmte Reihenfolge/Sortierung achten zu müssen, bzw. um Einzelbelege über einen ausgelesenen Feldinhalt  sortiert zu einem Gesamtdokument zusammenzufügen, wurden 2 neue Funktionen – “Anhängen” sowie “Sortiert einfügen” bei der Ausgabekonfiguration implementiert.
    • “Anhängen” – Wird bei der Ausgabe ein PDF mit dem gleichen Namen gefunden so wird die neue Datei an die bestehende Datei hinten angefügt.
    • “Sortiert einfügen” – Bei der Konfiguration muss ein Feld ausgewählt werden nach dem die Sortierung erfolgen soll. Dabei wird ein PDF Lesezeichen mit dem Text des ausgewählten Sortierfeldes erzeugt. Wird bei einer nachfolgenden Ausgabe eine Datei mit dem gleichen Namen gefunden so wird das neue Dokument an Hand des Sortierfelds an der richtigen Stelle im PDF eingefügt oder angehängt. Bei “Leer” bzw. gleichem Inhalt wird hinten angehängt.

 

  • PDF Display Rotation wird berücksichtigt: PDF Dateien können über einen „Display Roatation“ Parameter (0,90,180,270) enthalten. Z.B.: Kann bei Dokumenten die gedreht eingescannt wurden über den „Display Rotation“ Parameter die Darstellung entsprechend korrigiert werden um die Seiten immer im Hochformat anzuzeigen. Der Parameter dient aber nur für die Anzeige am Bildschirm, intern ist die PDF Datenstruktur jedoch weiterhin rotiert (z.b. am Kopf stehend). Die aktuelle Version von PDFmdx erkennt die PDF „Display Rotation“ und berücksichtigt diese, so dass die Darstellung auch der Verarbeitung entspricht und die Felder von den richtigen Positionen ausgelesen werden.
  • EasyArchiv (IMP) Export Format: Das EasyArchiv IMP Metadaten Ausgabeformat ist eine Art CSV Format. Es enthält eine individuell zu konfigurierende Kopfzeile sowie Folgezeilen mit den PDFmdx Metadaten. Als  Feldbegrenzung ist das „^” und als Feldtrennzeichen der „,“ (Beistrich) vorgegeben. Für die Folgezeilen stehen wie bei allen anderen Formaten die Felder / Variablen zur Auswahl zur Verfügung.

Beispiel einer IMP Kopfzeile: @FOLDER,FT:B2B_Netz,FN:Partner,FN:B2BMessageID,FN:MailMessageID,FN:RefNr,FN:Sender,FN:B2BSystem,BI:2001
FT: = Dokument Typ, FN: = Feldnamen. Diese Zeile muss entsprechend dem Archiv in das importiert werden soll individuell konfiguriert werden.

  • OCR Zuverlässigkeit beim Bereichs OCR: Für die positionierten Felder gibt es bei PDFmdx auch die Möglichkeit den Text aus dem Bild über eine OCR Funktion zu ermitteln. Bisher war intern die OCR Zuverlässigkeit fix mit 60% vorgegeben. Jetzt ist dieser Schwellwert konfigurierbar und wird auch bei der Voransicht für die Textausgabe in der Fußzeile des PDFmdx Editors, als Information ausgegeben.

 

Neuerungen PDFmdx Verarbeitung:

  • Job Trigger Funktion:  Der Start der Verarbeitung einer oder mehrere Jobs kann durch das Ende der Verarbeitung eines anderen Jobs angestoßen werden. Alle Jobs die über einen Trigger gestartet werden müssen in der Jobliste deaktiviert sein ansonsten wird die Verarbeitung über die Ordner Überwachung ausgelöst und nicht über den Trigger. Bei diesen Jobs wird der Start der Verarbeitung nur mehr über den Trigger eines anderen Jobs ausgelöst. Durch einen Trigger kann auch die sortierte Verarbeitung sichergestellt werden. Dabei wird der nächste Verarbeitungsschritt erst gestartet nachdem alle Dateien eines vorangegangenen Jobs fertig verarbeitet wurden.

  • Sortierte Verarbeitung von Eingangsdateien: Dateien in überwachten Ordnern können jetzt auch sortiert (auf / absteigend) nach Name, Größe, Erstellungs- und Änderungs-Datum verarbeitet werden. Dazu muss die Option „Blockverarbeitung“ aktiviert sein. Der Start einer sortierten Verarbeitung erfordert einen definierten Zeitpunkt. Er kann über den Intervalltimer, zu einem eingestellten Zeitpunkt,  durch eine *.rd Datei, durch den Trigger eines anderen Jobs oder durch Drücken von „Start Verarbeitung“ ausgelöst werden.

  • Fehler EMail Adresse pro Job: Pro Job kann eine individuelle Fehler EMail Adresse festgelegt werden. Diese übersteuert die generell im PDFmdx Prozessor festgelegte, für alle Jobs geltende Fehler EMail Adresse.

  • Parallele Verarbeitung: Erfolgt auf Basis der Jobs, nicht jedoch um innerhalb eines Jobs mehrere Dokumente parallel zu verarbeiten.

Download – PDFmdx Template Editor & Processor >>>