PDFmdx Version 3.5.3 verfügbar

Neuerungen PDFmdx Version 3.5.3:

  • Feld / Bereichs OCR / Bereich invertieren / OCR immer ausführen:

Normalerweise werden für die PDFmdx Verarbeitung PDF Dateien als Input verwendet die bereits Text enthalten – entweder “normale” PDF oder gescannte PDF die über einen vorangegangenen OCR Prozess (z.b. über AutoOCR oder FileConverterPro) eine zusätzliche Textebenen erhalten haben.

PDFmdx verfügt auch über eine integrierte OCR Funktion um den Text in den Bereichen der positionierten Feldern aus der Bildinformation ermitteln zu können.

Bei den allgemeinen PDFmdx OCR Einstellungen gibt es die Möglichkeit festzulegen wie die Texte aus dem PDF gewonnen werden sollen – “Original”, “OCR” oder “SmartOCR”. Bei “Original” wird der Text immer aus dem PDF genommen, bei OCR – wird der Text immer über einen PDFmdx OCR Vorgang gewonnen, auch falls bereits ein Text im PDF vorhanden ist. Bei der “SmartOCR” Einstellung wird die PDFmdx OCR Funktion nur ausgeführt falls im PDF noch kein Text vorhanden ist, ansonsten wird der im PDF vorhandene Text genommen. Diese Einstellungen gelten generell für die ganze Vorlage und alle damit verbundenen Layouts.

In dem Zusammenhang gibt es jetzt 2 neue Funktionen die es ermöglichen weißen Text auf schwarzem Hintergrund zu erkennen.

Einzelne Bereiche mit Text in weißer Schrift auf schwarzen Hintergrund können über einen automatischen OCR Vorgang nicht erkannt werden, da vor dem OCR Vorgang der Bereich invertiert werden müsste um erkannt werden zu können. Das kann nur interaktiv erfolgen in dem der zu Bereiche manuell ausgewählt wird.

Im PDFmdx Editor gib es jetzt die Möglichkeit bei der Feldkonfiguration die Option “Bereich invertieren” zu aktivieren. Dabei wird für die OCR Verarbeitung der Feldbereich invertiert. Dadurch entsteht schwarze Schrift auf weißem Hintergrund welche durch die OCR erkannt werden kann.

In dem Zusammenhang gibt es eine weitere neue Feldfunktion “OCR immer ausführen” – Damit kann die generelle Einstellung „SmartOCR“ übersteuert werden. Die OCR Erkennung wird dann für dieses Feld immer ausgeführt, auch wenn bereits ein darunterliegender Text vorhanden ist.

  

  • PDFmdx Editor – Bedingung suchen, Layout aufrufen: Es gib jetzt eine Suchfunktion um in den Bedingungen nach einem (Teil)String zu Vorwärts und Rückwärts zu suchen. Damit kann eine Zeile in den Bedingungen direkt angesprungen werden. Aus der Bedingungszeile kann dann auch das verknüpfte Layout direkt aufgerufen werden. Diese Funktion erleichtert die Arbeit mit einer großen Zahl an Bedingungen.

  • Die Web-Service Funktionen wurden überarbeitet, im Web-Service Beispiel können die Metadaten jetzt auch als XML heruntergeladen werden.
  • Bei der Metadaten XML wurden die neu hinzugekommenen Variablen JobID, JobName, JobDescription und ProzessID ergänzt.

Download – PDFmdx Template Editor & Processor >>>

PDFPrint-FM Version 1.3.0 – Start der Druckverarbeitung über *.rd Datei triggern

Mit der PDFPrint-FM Version 1.3.0 gibt es jetzt auch die Möglichkeit den Start der Druckverarbeitung nicht nur über die zu druckenden PDF Dateien selbst, sondern über eine “*.rd” Datei zu triggern.

Wird eine Datei mit der Endung *.rd in einen überwachten Ordner kopiert bzw. ist eine solche zu einem bestimmten Zeitpunkt vorhanden so werden alle zu diesem Event im Ordner vorhandenen PDF Dateien gedruckt. Damit ist es möglich den Zeitpunkt zu dem der Ausdruck der PDF´s starten soll genau festzulegen und extern zu triggern.

Download – PDFPrint-FM –  Ordnerüberwachung – Druckt PDF´s >>>

FileConverterPro (FCpro) – DropConvert MultiOS Client für MS-Windows, MacOS, Linux verfügbar

Der FileConverterPro (FCpro) ist eine Web-Service Anwendung um die verschiedensten Dokumentenformate nach PDF, PDF/A-1, PDF/A-3 bzw. ZUGFeRD zu konvertieren. Es können auch ganze Dokumentenstapel, hierarchische Dokumentenstrukturen, EMail (MSG, EML) und ZIP Container in eine Gesamt-PDF konvertiert werden.

Mit dem DropConvert MultiOS Client gibt es jetzt neben MS-Windows auch eine kostenlose FCpro Client Anwendung für Linux und MacOS.

Damit können einfach und über eine graphische Benutzeroberfläche per Drag&Drop Dokumente und Scans mit oder ohne OCR in durchsuchbare PDF und PDF/A Dokumente konvertieren.

Der DropConvert MultiOS Client kommuniziert per REST Web-Service mit einem FCpro Server und wurde plattformunabhängig auf Basis des ELECTRON Frameworks komplett in JavaScript entwickelt.

Funktionen FCpro DropConvert MultiOS:

  • Konvertiert Office, CAD und Image Dateien nach PDF, PDF/A und ZUGFeRD.
  • Konvertierung von Containerformaten (z.b. ZIP, MSG, EML) in ein Gesamt-PDF.
  • Erzeugt über OCR aus Scans auch durchsuchbare PDF.
  • Kommunikation mit dem FCpro Server per REST/https – Web-Service.
  • Ziel-Ordner voreinstellbar.
  • Einfügen von Dateien per Drag&Drop.
  • Auswahl eines am FCpro Server hinterlegten Konvertierprofils.
  • Automatischer bzw. manueller Start der Verarbeitung.

Userinterface – MS-Windows:

Userinterface – Ubuntu Linux:

Userinterface – macOS Mojave:

Download – FCpro DropConvert MultiOS Setup für MS-Windows >>>
Download – FCpro DropConvert MultiOS Setup für LINUX (deb) >>>
Download – FCpro DropConvert MultiOS Setup für LINUX (AppImage) >>>
Download – FCpro DropConvert MultiOS Setup für MacOS (dmg) >>>

PDFmdx Version 3.5.0 verfügbar

Neuerungen PDFmdx Version 3.5.0:

  • Untergruppen – zusätzliche Hierarchie für gleitende Gruppen: Eine gleitende Gruppe dienen dazu um z.b. Rechnungspositionen die in einem Dokument bzw. auf einer Seite mehrfach vorkommen zu erkennen und um daraus mehrere Datensätze bilden zu können. Es gibt jedoch Belege bei denen diese Datensätze eine weitere Hierarchiestufe erfordern, z.b. falls unter einer Position mehrere Unterdatensätze vorkommen um z.B. verschiedene Ausprägungen eines Artikels nach Farbe oder Größe zu unterscheiden. Das kann entweder als Liste oder aber auch in Form einer Matrix erfolgen. Um solche zusätzlichen Ausprägungen auch erkennen und auslesen zu können gibt es jetzt die Möglichkeit “Untergruppen” zu einer gleitenden Gruppe zu bilden.

Es gibt damit jetzt 3 Feldebenen – die “Dokumentenfelder”, die “Gruppenfelder” und die “Untergruppenfelder”. Untergruppen-Datensätze werden wie die Gruppen-Datensätze über Bedingungen definiert. Bei der Ausgabe stehen für Untergruppen-Datensätze auch die Information des Dokuments und der Gruppe zur Verfügung.

Für die Ausgabe kann konfiguriert werden ob – alle Datensätze ausgegeben, oder ob die Gruppen bzw. der Dokumenten Datensätze unterdrückt werden sollen. Die Felder der darüber liegenden Ebenen stehen bei der Ausgabe auch im Gruppen / Untergruppen-Datensatz zur Verfügung.  Zur Identifikation der Datensatzebene kann die Variable  %RECORD_LEVEL% mit den Werten (D)ocument, (G)roup, (S)ubgroup verwendet werden.

Die Felder der unterschiedlichen Ebenen werden im PDFmdx Editor farblich unterschiedlich dargestellt – Dokumentenfelder “Blau”, Gruppenfelder “Rot” und Untergruppenfelder “Grün”.

Der Arbeits-/Suchbereich für die gleitende Gruppe / Untergruppe wird im PDFmdx Editor über 2 horizontale rote Linien dargestellt, welche Vertikal in der Voransicht positioniert werden können. Die Suche nach Datensätzen erfolgt nur innerhalb des festgelegten Bereichs.

  • MS-SQL Datenbank Support für Metadaten / Log & Error Log Funktion: Neben dem Export der Metadaten in eine XLSX / CSV / XML Datei gibt es jetzt auch die Möglichkeit die Datensätze in MS-SQL Datenbank-Tabellen zu schreiben. Die ausgelesenen Werte werden als Dokumenten / Gruppen / Subgruppen Datensätze mit konfigurierbaren Feldern und Inhalten geschrieben, die Log- Tabelle mit einem fix festgelegten Aufbau.

MS-SQL Export Funktionen:

    • Konfiguration – MS-SQL Server / Datenbank.
    • SQL Tabellen anlegen / löschen / Daten aus den Tabellen löschen.
    • SQL Spalten in der ausgewählten Tabelle anlegen / löschen.
    • Für jedes Template kann, der SQL Export aktiviert, sowie die SQL Tabelle ausgewählt werden. Jeder SQL Spalte können Felder (Variablen) oder fixer Text zugeordnet werden.
    • SQL – Logging / Error Log aktivieren. Der Name der Log-Tabelle ist konfigurierbar.
    • Das SQL-Log enthält folgende Informationen: PROCESS_ID, Rechnername (WsName), Benutzername (UserName), Vorlage (Template), Layout, Status (OK, ERROR), Fehler Code (ErrorCode), Fehlernachricht als Text (ErrorMessage), Info über die Ein / Ausgabedatei (InputPath, InputFileName, InputFolder, OutputPath, OutputFileName, OutputFolder), Beginn/Ende der Verarbeitung (StartTime, EndTime), Verarbeitungsdauer (ProcessingTime).

PDFmdx Fehler Codes im Log:

    • 0 = Erfolgreiche Verarbeitung.
    • 1 = Keine im PDF verbleibenden Seiten.
    • 2 = Konfiguriertes Briefpapier konnte nicht gefunden werden.
    • 3 = Fehlende Lizenz.
    • 4 = Fehler beim Laden des Text Plugins.
    • 5 = Fehler beim Schreiben der PDF Datei.
    • 6 = Keine für die angegebenen Kriterien passende Vorlage / Layout gefunden.
    • 7 = Fehler beim Schreiben der Drucker (PCF) Konfigurationsdatei.
    • 8 = Verarbeitungsfehler.
    • 9 = Fehler beim Anlegen des Ausgabe Ordners.
    • 10 = Fehler beim Erzeugen der Ausgabedatei.
    • 11 = Fehler beim Überlagern / Hinterlegen des Briefpapiers.
    • 12 = Fehler beim Signieren.
    • 13 = Fehler beim EMail Versand.
    • 14 = Fehler beim Schreiben der Metadaten.
    • 15 = Fehler beim Erzeugen der XML Datei.

  • PDFmdx Editor – Test Funktion: Die Test-Funktion im PDFmdx Editor und die PDFmdx Verarbeitung basieren jetzt auf der gleichen Komponente. Damit wird sicher gestellt dass das Ergebnis beim “Test” im PDFmdx Editor für die Erkennung, das Teilen und Auslesen das gleiche Ergebnis bringt wie bei der Verarbeitung durch den PDFmdx Prozessor.

In einer PDFmdx Vorlage kann konfiguriert werden ob und wie ein Layout über Bedingungen identifiziert werden soll. Bei der “Test” Funktion im PDFmdx Editor werden die Bedingungen geprüft, das erkannte Layout identifiziert und die über das Layout festgelegten Felder ausgelesen. Auf der Test-Maske gibt es jetzt eine Checkbox um die Layout-Erkennung / Kriterien zu ignorieren. Die Felder werden dann nur über das manuell ausgewählte Layout gelesen und angezeigt.

  • Feld-Teilstring vom Ende. Die Teilstring-Feldfunktion ist jetzt nicht nur vom Beginn eines Feldes, sondern auch vom Ende aus möglich (umschaltbar).

  • Neue OCR Version, mehrere Erkennungssprachen: Die Bereichs OCR Funktion für Felder wurde aktualisiert und basiert jetzt auf der Tesseract Version 4.0. Damit ist jetzt auch die Erkennung mehrere Sprachen möglich.

  • Vorgabewerte für Felder – Layout bezogen: Es gibt neben der Funktion einen generellen Vorgabewert zu vergeben, jetzt auch eine Funktion um für jedes Layout einen individuellen Vorgabewert für ein Feld zu vergeben. Eine Variable bekommt den Vorgabewert zugewiesen falls das Feld auf einem Layout nicht positioniert wurde bzw. wenn ein Feld positioniert wurde  aber nichts ausgelesen werden kann da der Bereich leer (=blank) ist. Damit kann über die Layouterkennung einer Variablen ein fixer Wert zugewiesen werden. z.b. eine Kundennummer die nicht direkt aus dem Dokument ausgelesen werden kann.
  • Neuer “Zusammengesetzt” Feldtyp: Der Typ “Zusammengesetzt” erlaubt es kombinierte Felder zu erzeugen, die aus mehreren anderen Feldern bzw. Text bestehen. Solche zusammengesetzten Felder stehen für die Ausgabe (Ordner, Dateiname, Metadaten), nicht jedoch für Bedingungen zur Auswahl. Diese Felder können aus Variablen der Dokumenten / Gruppen und Untergruppen zusammengesetzt werden.

  • Option – Keine verbleibenden Seiten – Dokument nicht in den Fehler Ordner verschieben: Beim Teilen, Löschen von Seiten (Deckblätter) sowie Löschen von leeren Seiten kann es vorkommen dass das Restdokument über keine weiteren für die Verarbeitung verbleibenden Seiten mehr verfügt. Diese Option legt fest ob das “Rumpfdokument” erhalten bleiben soll und in den Fehler Ordner verschoben wird oder ob ein solches Dokument nicht erhalten bleibt und der Vorgang nur im Error-Log protokolliert wird.

  • Export zusätzlicher Formate, auswählbar für – „Erfolgreich / Fehler / Beides“: Damit ist es jetzt auch möglich die in den Error Folder verschobenen PDF Dateien zusätzlich in andere Formate z.b. TXT zu konvertieren um weitere Auswertungen durchzuführen.

Download – PDFmdx Template Editor & Processor >>>

eDocPrintPro free / PDF/A & ZUGFeRD Version 3.28.4 verfügbar

eDocPrintPro Version 3.28.4 basiert jetzt auf der aktuellen GhostScript Version 9.27. Dieses GhostScript Update ist auf Grund einer bekannt gewordenen Sicherheitslücke erforderlich.

Download – eDocPrintPro free Version

Download – eDocPrintPro PDF/A & ZUGFeRD

GhostScript 9.27 Setup

PDFPrint-CS-FM – Hotfolder / Ordner Überwachung für den PDFPrint-CS PDF Druckdienst

PDFPrint-CS-FM ist eine für den PDFPrint-CS PDF Druckdienst kostenlos verfügbare Zusatz Anwendung um einen oder mehrere Eingangs-Ordner zu überwachen und alle vorhandenen oder neu hinzukommenden PDF Dateien über Web-Service remote auszudrucken.

Die Funktionen entsprechen voll und ganz der PDFPrint-FM Anwendung, jedoch erfolgt der Ausdruck nicht “Lokal” sondern “Remote” mittels HTTPS über die SOAP Web-Service Schnittstelle.

Download – PDFPrint-CS-FM – Ordnerüberwachung für PDFPrint-CS >>>

PDFCompressor-CS-FM – Hotfolder / Ordner Überwachung für den PDFCompressor-CS PDF Komprimier Dienst

PDFCompressor-CS-FM ist eine für den PDFCompressor-CS PDF Komprimier Dienst kostenlos verfügbare Zusatz Anwendung um einen oder mehrere Eingangs-Ordner zu überwachen und alle vorhandenen oder neu hinzukommenden PDF Dateien zu optimieren, zu komprimieren und um möglichst kompakte PDF Dateien zu erzeugen. Diese werden in festgelegten Ausgangs-Ordnern abgelegt.

Die Funktionen entsprechen voll und ganz der PDFCompressor-FM Anwendung, jedoch erfolgt die  Verarbeitung nicht “Lokal” sondern “Remote” mittels HTTPS über die SOAP Web-Service Schnittstelle.

 

Download – PDFCompressor-CS-FM – Ordnerüberwachung für PDFCompressor-CS >>>

PDFSign-CS-FM – Hotfolder / Ordner Überwachung für den PDFSign-CS Signier Dienst

PDFSign-CS-FM ist eine für den PDFSign-CS PDF & PDFA Signier Dienst kostenlos verfügbare Zusatz Anwendung um einen oder mehrere Eingangs-Ordner zu überwachen und alle vorhandenen oder neu hinzukommenden PDF oder PDF/A Dateien zu signieren und / oder mit einem Zeitstempel zu versehen und in dem festgelegten Ausgangs-Ordner abzulegen.

Die Funktionen entsprechen voll und ganz der PDFSign-FM Anwendung, jedoch erfolgt die  Verarbeitung nicht “Lokal” sondern “Remote” mittels HTTPS über die SOAP Web-Service Schnittstelle.

Download – PDFSign-CS-FM – Ordnerüberwachung für PDFSign-CS >>>

FileConverterPro 1.0.88 – JPEG – DPI automatisch an das A4 Seitenformat anpassen

Die aktuellen Handy Kameras erzeugen JPEG Bilder mit sehr hohen Auflösungen. Dabei sind die “DPI” in der JPEG Datei für die Darstellung am Bildschirm auf 72 x 72 dpi eingestellt. Somit ergibt sich auf Grund der hohen Auslösung der Kameras ein errechnetes Seitenformat von über einem Meter. Wird eine solche JPEG Datei nach PDF konvertiert so ergibt sich aus den 72dpi und den 3000-4000 Pixel eine PDF Seitengröße von z.b. 140 x 100cm. Werden solche Bilder z.b. als Anhänge zu EMail verschickt und die MSG / EML EMail Datei wird in ein PDF konvertiert so erhält man ein PDF Datei bei der z.B. alle Seiten A4 Format, der JPEG Anhang aber ein wesentlich größeres  Seitenformat aufweist.

Um das zu verhindern und ein annähernd einheitliches Seitenformat bei der Konvertierung von JPEG Fotos zu erhalten gibt es jetzt eine neue Option um die “DPI” bei der Konvertierung automatisch anzupassen. Es wird dabei auch eine einstellbare Toleranz (von 10 bis max. 20%) berücksichtigt, wobei die automatische Anpassung nur dann erfolgt falls die in der JPEG vorhandene DPI Einstellung das Seitenformat “A4 + Toleranz” überschreitet.

   

Download – FileConverterPro (FCpro) (~600MB ) >>>

AutoOCR / AutoOCR light 2.0 – iOCR Neuerungen

Neuerungen der AutoOCR / AutoOCR light Version 2.0:

  • Die iOCR Standard OCR Komponente von AutoOCR / AutoOCR light basiert jetzt auf der neuen Tesseract OCR Version 4.0.
  • Mehrere Sprachen können für die OCR Erkennung ausgewählt werden.
  • Zusätzliche Option zur Auswahl der OCR Genauigkeit/Geschwindigkeit.

  • Konfigurierbarer Parameter für das Teilen von Dokumenten in kleinere Einzeldokumente um Dokumente mit großer Seitenzahl mit geringen / begrenzten Speicherressourcen verarbeiten zu können.

  • Bedingte OCR Verarbeitung – über Dateiformat, Seitenzahl, Seitenformat – Breite / Höhe in mm oder Pixel, Auflösung, Dateigröße und Farbtiefe  – für Ordnerüberwachung und für die Web-Service Verarbeitung konfigurierbar. Damit kann pro Datei-Format über Kriterien gesteuert werden – ob eine OCR Verarbeitung oder eine Konvertierung in ein PDF-Image erfolgen bzw. ob die OCR Verarbeitung solcher Dateien geblockt werden soll. Damit kann verhindert werden dass die OCR Verarbeitung durch “sinnlose” Verarbeitungen blockiert wird. z.b. falls große JPEG Fotos in den OCR Verarbeitungsprozess gelangen und die Schrifterkennung dabei keinen Sinn macht.

  

Weitere Informationen zu den AutoOCR / AutoOCR light – iOCR Erweiterungen siehe hier >>>

Download – AutoOCR – OCR Server (ca. 410MB) >>>

Download – AutoOCRLight – Low Cost OCR Server (ca. 410MB) >>>
Für das Update der AutoOCR light Version 1.x auf 2.x ist eine neue Lizenz erforderlich.