PDF OCR Tool – PageCount – Ermitteln der zu verarbeitenden Seiten

Eine wichtige Information um die voraussichtlich benötigte OCR Verarbeitungszeit zu ermitteln ist die Anzahl der zu verarbeitenden Seiten.  Denn eine Datei kann eine aber auch hunderte Seiten umfassen. Diese Information ist auch für die erforderliche Abbyy OCR Lizenz notwendig zu wissen um feststellen zu können ob ein vorhandenes oder geplantes Seitenkontingent für die anstehende Verarbeitung ausreichend ist.

Page count for OCR

Der ausgewählter In-Folder wird nach OCR-fähigen Dateiendungen durchsucht. Folgende Endungen werden gesucht: PDF, TIF, TIFF, PNG, JPG, BMP, GIF, PCX, DCX. Da PDF und TIFF multipage fähige Dateiformate sind werden für diese Dateien die Anzahl der Seiten pro Dokument ermittelt. Als Ergebnis wird für jeden Ordner die Anzahl der Seiten sowie die Gesamtzahl aller Seiten für die komplette Ordnerstruktur ausgegeben.

Download – PDF OCR Tool – PageCount >>>

PDF OCR Tool – MoveFiles – Verschiebe die nicht per OCR verarbeitbaren Dateien

Für OCR und zur Vorbereitung der Verarbeitung ganzer Ordnerstrukturen möchte man die durch den OCR Vorgang zu verarbeitenden Dateien von allen Anderen trennen. In weiterer Folge kann dann festgestellt werden  wie viele Seiten per OCR zu verarbeiten sind.

In dem Zusammenhang kann auch ein weiteres Tool zum Einsatz kommen um “normale” PDF Dateien die bereits Text enthalten von den reinen Image PDF Dateien zu trennen um anschließend nur diese zu verarbeiten. Informationen darüber finden Sie hier >>>

Move files

Alle von AutoOCR unterstützten Dateiendungen sind bereits voreingestellt – Dateien mit diesen Endungen verbleiben im ausgewählten In-Folder, während alle anderen Dateien in den Out-Folder unter Berücksichtigung der Ordnerstruktur verschoben werden.

Download – PDF OCR Tool MoveFiles >>>

iPaper2 – Erweiterbar über .NET Action Plugins

iPaper2 kann nachdem ein PDF-Formular überlagert wurde das erzeugte PDF über nachgelagerten Actions weiterverarbeiten. Standardmäßig werden bei der Installation bereits verschiedene wichtige Actions installiert.

  • Metadata – Um die PDF Informationsfelder zu befüllen
  • SaveAs – Um die Datei in einem Ordner unter einem bestimmten Namen abzulegen
  • E-Mail – um das Dokument per E-Mail zu versenden
  • AutoPrint – um das Dokument automatisch auszudrucken
  • Run – um ein nachgelagertes Programm aufzurufen

Actions werden in eine Liste ein oder mehrfach eingefügt und konfiguriert. Jede Action in der Liste kann aktiv oder inaktiv gesetzt werden. Damit lassen sich ganze  Verarbeitungsketten konfigurieren. Actions können aber auch von außen per XML dynamisch gesetzt werden wodurch sich die Verarbeitungsschritte und deren Parameter beliebig steuern lassen. Die XML Steuerbefehle werden entweder als externe Datei übergeben oder aber auch mitgedruckt und anschließend aus dem Dokument entfernt.

Um die Funktionalität zu erweitern können über .NET neue Actions programmiert und hinzugefügt werden. Diese Schnittstelle ist frei verfügbar und dokumentiert.

  • iPaper2 – .NET Actions Schnittstelle >>>

Als erster zusätzlicher Action Plugin ist die Signatur Funktion verfügbar um PDF Dokumente elektronisch zu unterschreiben.

  • Sign – Zusätzlicher Action Plugin zur elektronischen Signatur >>>

Wir entwickeln auch individuelle Action Plugins – fragen Sie uns >>>

iPaper2 – Demo Vorlagen sollen nicht automatisch eingefügt werden

Bei der erstmaligen Installation von iPaper2 werden einige Demo Vorlagen in den Vorlagen Order kopiert. Nachdem diese Dateien kopiert wurden wird das Flag “copydefstat” in der iPaper.XML Datei auf “True” gesetzt.

copydefstat

Ist das Flag gesetzt werden die Demo Vorlagen nicht kopiert – auch wenn ein neuer Ordern ausgewählt wird der noch keine Demo Vorlagen enthält. Wird iPaper2 mit einer individuellen Konfigurations Datei per Commandline – /configfile=…. und /configreadonly=1 gestartet dann kann es sehr wohl wieder vorkommen dass die Demo Vorlagen nochmals kopiert und immer wieder eingefügt werden da iPaper nicht in der Lage ist die Config Datei zu überschreiben und das Statusflag “copydefstat” bleibt auf “False”

Ebenso kann es vorkommen dass eine individuelle iPaper.XML Config Datei verwendet wird bei der das Flag “copydefstat” fehlt und die Datei nur die Definition eines anderen Vorlagen Ordners enthält. Fehlt der “copydefstat” Paramter so wird als Default “False” angenommen und die Demo Vorlagen werden kopiert.

iPaper2 – Steuerung der Software per XML

iPaper2 verfügt über die Möglichkeit die Einstellungen der Software und aller Funktionen von außen per XML Kommandos zu steuern und zu beeinflussen. Das betrifft die Grund-Einstellungen beim Start von iPaper2. Zusätzlich ist es damit auch möglich die Grundsettings dynamisch während der Verarbeitung der einzelnen PDF Dateien zu übersteuern. Dies kann entweder über eine extern zur Verfügung gestellte XML Datei erfolgen oder aber die XML Information wird “mitgedruckt”, vor der Verarbeitung im Dokument gesucht, extrahiert und für die Steuerung der Weiterverarbeitung herangezogen. Nach dem Extrahieren der XML Information aus dem PDF lassen sich die Seiten auf welchen sich die XML Information befunden hat aus dem Ergebnisdokument entfernen und löschen.

Über diese Steuerbefehle können sowohl die gewünschten Verarbeitungsschritte (Actions) für die Weiterverarbeitung der PDF Datei gesteuert, Voreinstellungen getroffen aber auch Elemente und Funktionen des User Interfaces deaktiviert werden.

iPaper2 – Dokumentation – XML Kommandos >>>

iPaper2 – Client – Commandline Parameter

iPaper2 speichert alle seine Einstellungen in einer einzigen XML Datei – der iPaper.XML. Der  iPaper2 Client kann über eine Commandline Option mit unterschiedlichen Konfigurationen gestartet werden.  Ebens0 kann per Commandline Option unterbunden werden dass geänderte Einstellungen in die Konfigurationsdatei zurückgeschrieben werden – diese kann “Read-Only” gesetzt werden.

iPaper2 – Client Commandline Parameter:

  • /configfile=<the fully qualified path to the config file>
  • /configreadonly=1|0 (this option has only effect if the /configfile is present

eDocPrintPro E-Mail Plugin – E-Mail Adressen im Dokument suchen und extrahieren

Der eDocPrintPro E-Mail Plugin verfügt über eine Funktion um im Dokument vorhandene E-Mail Adressen zu suchen, zu erkennen und zu extrahieren. Die gefundenen E-Mail Adressen werden in weiterer Folge zum Versand der E-Mail Nachricht verwendet.

Damit lassen sich E-Mail Versand Abläufe automatisieren – E-Mail Adressinformation können z.B.: aus einer ERP Anwendung bzw. Datenbank ins Formular oder MS-Word Dokument eingefügt und mitgedruckt werden. Der E-Mail Plugin “durchsucht” dann das PDF Dokument nach den entsprechend definierten Anfangs- und End-Markern. Werden solche gefunden extrahiert der Plugin die dazwischen befindliche Information und verwendet diese für den interaktiven oder automatisierten E-Mail Versand des soeben gedruckten PDF Dokuments.

EMail plugin - Suche E-Mail Adresse im Dokument

Funktionen:

  • Definition von “Begrenzern” (Beginn, Ende) um E-Mail Adressen zu finden
  • Begrenzer – Definition für “An:”, “Cc:” und “Bcc:
  • Auswahl wie die gefundenen Adressen verwendet werden sollen
  • Option – Nur erste Seite durchsuchen
  • Option – Bestimmte Anzahl von E-Mail Adressen zu überspringen

Download – MS-Word Beispieldokument >>>
Konfiguration und Ergebnisse – Beispieldokument

Download – eDocPrintPro – E-Mail Plugin >>>