AutoOCR – Version 1.9.11

2012-04-30 Von: Wolfgang May Kategorie(n): ABBYY FineReader, AutoPrint, OCR, OCR Server, PDF/A, Update

Bei der Version 1.9.11 wurden Optimierungen und Fehlerbehebungen im Bereich der mit der Version 1.9.10 neu hinzugekommenen Funktion der OCR Parallelverarbeitung vorgenommen.

Achtung :

Der Speicherort der Konfigurationdatei AutoOCR.XML wurde geändert. Falls Sie eine bestehende Installation mit dieser Version aktualisieren kopieren Sie bitte die alte AutoOCR.XML Datei in den neuen Pfad unter “C:\ProgramData\AutoOCR”

Download – AutoOCR – OCR Server >>>
Download- Abbyy FineReader 10.x Rel 4 OCR Engine Setup (ca. 460MB) >>>

Für die Abbyy OCR Engine Version 10 stehen Demolizenzen für 30 Tage bzw. 500 Seiten zur Verfügung – diese können Sie gerne bei uns anfordern

Demolizenzkey für FineReader OCR Engine anfordern

PAM Lizenzmanager mit neuen Terminalserver Lizenzschritten – 20,30, 100 User

2012-04-30 Von: Wolfgang May Kategorie(n): Lizenzierung, PAM

Mit der aktuellen PAM Version wurde die Lizensierung unserer Produkte am Terminal-Server um 3 zusätzliche Lizenzschritte erweitert. Neben den bisherigen Schritten gibt es nun auch die Möglichkeit der Lizensierung von 20, 30 und 100 Benutzern.

  • Download Einzelsetup PAM - Lizenzmanager – 32bit >>>
  • Download Einzelsetup PAM - Lizenzmanager – 64bit >>>

Das 64bit Setup ist jedoch nur für reine 64bit Anwendungen gedacht – 32bit Anwendungen auf 64bit Betriebsystemen verwenden die 32bit Version.

ifresco AutoOCR Transformer – OCR processing integrated with Alfresco Share

2012-04-30 Von: Wolfgang May Kategorie(n): ABBYY FineReader, Alfresco, AutoOCR, Dies & Das, OCR, OCR Server, PDF/A, Web-Service, ifresco

The AutoOCR Server is integrated via REST as a dynamic configurable Alfresco document transformer. AutoOCR creates searchable PDF´s or other document formats like TXT, DOC(X), XLS(X), PPT(X), XML, RTF and HTML from image of PDF files. The OCR functions can be used via Java, JavaScript or as a document transformer. Config is done from the Share UI which also has a new document action “Transform” and gives access to all Alfresco transformers.

AutoOCR is an OCR server / service which is based on the obviously best OCR engine from Abbyy. The AutoOCR server has a REST web-serverice interface which was used to integrate it with Alfresco. AutoOCR is able to convert image- or PDF- files to searchable PDF´s. In addition to PDF other document formats like TXT, DOC(X), XLS(X), PPT(X), XML, RTF and HTML can also be created.

The configuration is simple and uses OCR profiles to summarize all possible settings. With an AMP install module  the direct integration of AutoOCR to Alfresco is realized. OCR functions are available in   Alfresco as a dynamically configurable transformer. Appropriate bindings allow the use of the OCR out services also from JavaScript and Java. From Alfresco 4.0, the configuration and monitoring will be done directly on the UI of the Share Administrator console.

In addition, we have extended the  Alfresco share document actions with the Alfresco Transformer integration. Transformer functions are available on  any document via the share interface and allow the conversion of documents into different formats.

AutoOCR as Alfresco Transformer:

The OCR function can be bound to a folder as an action. So if e.g. a scanned document will be placed in this folder, the processing starts automatically started and the document will be passed to the AutoOCR server. The result is a searchable PDF or other document format that can be immediately sought and found on the Alfresco full-text index.

AutoOCR JavaScript binding for Alfresco:

The JavaScript API allows direct access to the AutoOCR service from Alfresco scripts. From Repository JavaScripts (Webscript controller script, scripted actions) all the features of AutoOCR API can be adressed. This API is completely independent from the integration of AutoOCR services as Alfresco Transformer.

Alfresco Share – “Transform” document action

By implementing the additional “transform” document action to the Share UI you can use all your Alfresco transformes and not only the AutoOCR transformers. The “transform” action is implemented general and not only OCR specific.

Highlights / features:

  • Direct AutoOCR integration as Alfresco transformer with REST web service interface.
  • Separate AutoOCR service / server which does not strain the Alfresco server
  • Based on ABBYY – the leading OCR engine
  • Easy configuration by selecting OCR profiles – all available ABBYY OCR engine settings are combined.
  • In addition to PDF other output formats can be generated (TXT, RTF, DOC, etc.)
  • Dynamic transformer configuration at runtime using the Alfresco Share Admin interface.
  • JavaScript client for the AutoOCR service, available in Alfresco repository scripts (WebScripts, actions, etc.)
  • Java client for the AutoOCR service, for use in Java code.
  • The Java client itself has no dependencies for Alfresco.
  • New Share document action “Transform” enhances Share not only with OCR but with all supported transformers.

Requirements:

  • Alfresco 4.x – dynamic configuration via Share Userinterface
  • Alfresco 3.x – manual configuration w/o Share UI
  • AutoOCR from Version 1.9.8 on Microsoft Windows as a service
  • ABBYY FineReader Engine 10 (starting with 10.000 pages per month)

20-autoocr-admin-status 22-autoocr-admin-transformerconfig2 23-autoocr-admin-jobs 01-autoocr-action-menu 02-autoocr-shareaction-dialog 03-autoocr-shareaction-transform-waiting 04-autoocr-shareaction-results 05-autoocr-shareaction-transformed-docs

Test and Demo version is available – please contact us for details >>>

Price information you can find here >>>

ifresco AutoOCR Transformer – OCR Verarbeitung im Alfresco ECM / DMS integriert

2012-04-27 Von: Wolfgang May Kategorie(n): ABBYY FineReader, Alfresco, AutoOCR, OCR, OCR Server, PDF/A, Web-Service, ifresco

AutoOCR ist ein OCR Service/Server der auf der momentan wohl besten OCR Engine von Abbyy aufbaut und über eine REST/SOAP Schnittstelle verfügt. AutoOCR ist in der Lage Image- und PDF-Dateien in durchsuchbare PDF zu konvertieren. Zusätzlich lassen sich aber auch TXT, DOC(X), XLS(X), PPT(X), XML, RTF und HTML erzeugen.

Die Konfiguration ist denkbar einfach und erfolgt über OCR Profile welche alle möglichen Einstellungen zusammenfassen. Über ein AMP Install-Modul erfolgt die direkte Integration von AutoOCR mit Alfresco. OCR Funktionen stehen damit in Alfresco als dynamisch konfigurierbare Transformer zur Verfügung. Entsprechende Bindings erlauben die Verwendung der der OCR Dienste auch aus JavaScript und Java heraus. Ab Alfresco 4.0 erfolgt die Konfiguration und Überwachung direkt über das UI der Share Administrator Konsole.

Darüber hinaus haben wir die Alfresco Share Dokumenten-Aktionen um die Alfresco Transformer Integration erweitert. Transformer Funktionen stehen damit beim jedem Dokument über die Share Oberfläche zur Verfügung und erlaubt die Konvertierung von Dokumenten in unterschiedliche Formate.

AutoOCR als Alfresco Transformer:

Die OCR Funktion wird dabei als Aktion direkt auf Ordner gebunden. Wird z.b. ein gescanntes Dokument in einen solchen Alfresco Ordner abgelegt so wird die Verarbeitung automatisch angestoßen und das Dokument an den AutoOCR Service übergeben. Das Ergebnis ist eine durchsuchbare PDF Datei die unmittelbar danach über den Alfresco Volltextindex gesucht und gefunden werden kann.

AutoOCR JavaScript Binding für Alfresco:

Das JavaScript API ermöglicht den direkten Zugriff auf den AutoOCR Service von Alfresco Scripts aus. In Repository JavaScripts (WebScript-Controller Scripts, Scripted Actions) können alle Funktionen des AutoOCR APIs aufgerufen werden. Dieses API ist vollständig unabhängig von der Einbindung der AutoOCR-Services als Alfresco-Transformer.

Alfresco Share – “Transform” Dokumentenaktion

Durch die Implementierung der “Transform” Dokumentenaktion in das Alfresco Share UI stehen neben der AutoOCR Verarbeitung auch alle anderen Alfresco Dokumententransformer zur Verfügung. Die Share “Transform” Funktion wurde allgemein und nicht nur auf die OCR Verarbeitung bezogen implementiert.

Highlights / Funktionen:

  • Direkte AutoOCR Einbindung als Alfresco Transformer über REST Web-Service Schnittstelle.
  • Getrennter AutoOCR Service / Server welcher den Alfresco Server nicht belastet
  • Basierend auf ABBYY – der führenden OCR Engine
  • Einfache Konfiguration über Auswahl von OCR Profilen – alle verfügbaren Abbyy OCR Engine Einstellungen werden damit zusammengefasst.
  • Neben PDF können parallel dazu weitere Ausgabeformate erzeugt werden (TXT, RTF, DOC, etc.)
  • Dynamische Transformer Konfiguration zur Laufzeit über die Alfresco Share-Admin Oberfläche.
  • JavaScript-Client für den AutoOCR Service, nutzbar in Alfresco Repository-Scripts (WebScripts, Actions, usw.)
  • Java-Client für den AutoOCR Service, zur Verwendung in Java Code. Der Java Client selbst hat keine Abhängigkeiten gegen Alfresco.
  • Dokumentenaktion “Transform” erweitert Alfresco Share nicht nur um OCR sondern um alle von Alfresco unterstützen Transformationen.

Voraussetzung:

  • Alfresco 4.x – dynamische Konfiguration über Share Userinterface
  • Alfresco 3.x – manuelle Konfiguration ohne Share UI
  • AutoOCR ab Version 1.9.8 unter Microsoft-Windows als Dienst
  • ABBYY FineReader Engine 10 (Lizenz ab 10.000 Seiten pro Monat)

20-autoocr-admin-status 22-autoocr-admin-transformerconfig2 23-autoocr-admin-jobs 01-autoocr-action-menu 02-autoocr-shareaction-dialog 03-autoocr-shareaction-transform-waiting 04-autoocr-shareaction-results 05-autoocr-shareaction-transformed-docs

ifresco AutoOCR Transformer im ecm Market – Der Marktplatz für Alfresco Lösungen

2012-04-27 Von: Wolfgang May Kategorie(n): ABBYY FineReader, Alfresco, AutoOCR, OCR, OCR Server, ifresco

Es gibt jetzt mit dem ecm Market unter www.ecm-market.de eine neue Plattform für Alfresco Lösungen und Add-On Module. Der ecm Market ist eine B2B-Plattform für kostenlose und kommerzielle Lösungen, sowohl für Alfresco Enterprise wie auch für Alfresco Community. Auf dieser Plattform bieten Softwarehäuser und Entwickler ihre Alfresco-basierten Lösungen für Unternehmen an. Auch wir bieten im ecm Market unsere Alfresco Lösungen an. Die erste dort verfügbare Lösung ist unsere Integration von Alfresco mit AutoOCR zur Erzeugung durchsuchbarer PDF´s.

ifresco AutoOCR Transformer im ecm Market >>>

AutoOCR 1.9.10 – Abbyy FineReader 10 Rel 4 sowie wesentliche Performancesteigerung

2012-03-28 Von: Wolfgang May Kategorie(n): ABBYY FineReader, AutoOCR, OCR, OCR Server, PDF/A, Update, Web-Service

Zusammen mit der AutoOCR Version 1.9.10 steht auch die aktuellste Version der Abbyy FineReader 10 Release 4  – OCR Engine zur Verfügung. Wir konnten die Verarbeitungsperformance von AutoOCR wesentlich steigern und sind jetzt in der Lage Dokumente parallel zu verarbeiten sowie die OCR Erkennung mehrseitige Dokumente auf mehrere Prozessorkerne aufzuteilen. Steht die richtige Hardware zur Verfügung so kann damit die Performance im Vergleich zu einer nicht parallelen Verarbeitung mehr als verdoppelt werden.

Neuerungen der AutoOCR Version 1.9.10:

  • Unterstützung der aktuellsten Abbyy FineReader OCR Engine Version 10 – Release 4
  • Optimale Ausnutzung der Hardware Ressourcen für beste Performance:  Parallel & Multi-Processing / Multi-Threading – für Folder Verarbeitung sowie Web-Service  – individuell konfigurierbar. Wir können damit abhängig von der Hardware eine Beschleunigung der Verarbeitungsgeschwindigkeit um 100% und mehr erreichen. Eine typische Rechnung gescannt mit 4 Seiten – TIFF Gr. 4 – 300dpi kann damit auf unserem Testserver in nur 9 Sekunden in ein durchsuchbares PDF Dokument konvertiert werden.
  • Konfiguration der Kodierung der über die Abbyy OCR erzeugten TXT Datei.: Simple, UTF-8(default), UTF-16, Auto
  • Einfachere und klarere Konfigurationsmöglichkeit der Web-Service / REST Schnittstelle: Hostname, https und http Port, Check ob nicht die gleichen Portnummern vergeben wurden, Automatische Erzeugung der URL für die Service Endpunkte.
  • Neue Abbyy FineReader Option – Original Auflösung beibehalten (Ja / Nein). Damit wird nicht explizit eine bestimmte Auflösung (z.b.: 300dpi) vorgegeben, sondern die Auflösung der Images in der Ausgabedatei richtet sich flexibel nach der Auflösung in der Ursprungsdatei.
  • Über die Web-Service Schnittstelle (REST / SOAP) ist es jetzt auch möglich durchsuchbare PDF/A Dokumente zu erzeugen.
  • REST Web-Service Interface wurde um die Funktion zum „Löschen von Jobs“ erweitert.
  • Der .NET C# – Beispiel-Client wurde aktualisiert und an die neuen Funktionen angepasst.

Bitte beachten Sie: die AutoOCR Version 1.9.10 benötigt die Abbyy FineReader Version 10 Release 4 und umgekehrt.

Parallele Verarbeitung Neue REST & Web-Service Konfiguration Web-Service OCR Profile mit PDFA Option

Download – AutoOCR – Web-Service Beispiel-Client  inkl. C# Source >>>
Download – AutoOCR REST Web-Service Signature >>>
Download – AutoOCR REST Admin Web-Service Signature >>>

Download – AutoOCR – OCR Server >>>
Download- Abbyy FineReader 10.x Rel 4 OCR Engine Setup (ca. 460MB) >>>

Für die Abbyy OCR Engine Version 10 stehen Demolizenzen für 30 Tage bzw. 500 Seiten zur Verfügung – diese können Sie gerne bei uns anfordern

Demolizenzkey für FineReader OCR Engine anfordern

Adobe Reader X – Absturz nach Installation von edocPrintPro 64bit

2012-03-20 Von: Wolfgang May Kategorie(n): 64bit, eDocPrintPro

Nach der Installation unseres eDocPrintPro 64bit Druckertreibers kann es passieren dass Adobe Reader X abstürzt und nicht mehr funktioniert. Das liegt nicht an unserem Druckertreiber sondern am Adobe Reader selbst. Das Problem kann durch die Installation eines Patches für den Reader Version 10 behoben werden.

Weitere Informationen über den  Patch finden Sie hier >>>

Download Adobe Reader Patch 10.1.2

eDocPrintPro SDK – VB Beispielprogramme als EXE zum Testen für 64bit OS verfügbar

2012-02-22 Von: Wolfgang May Kategorie(n): 64bit, Software-Entwicklung, eDocPrintPro, eDocPrintPro SDK

Bisher hat es nur eine Versiongegeben die mit dem 32bit eDocPrintPro auf 32bit Betriebsystemen funktioniert hat. Siehe hier >>>

Jetzt gibt es auch eine Version mit der man die eDoc SDK Funktionen unter 64bit Betriebsystemen ausprobieren und testen kann.

Das Programm zeigt als ausführbares EXE mit Setup welche Funktionen des Druckertreibers aus eigenen Anwendungen heraus gesetzt, abgefragt und genutzt werden können.

eDocPrintPro 64bit SDK Beispiele als EXE >>>

Bitte beachten Sie dass für diese Beispiele die 64bit Version des eDocPrintPro Druckertreibers erforderlich ist.

Bei Erwerb des SDK erhalten Sie sowohl eine Dokumentation der Funktionen sowie Beispielanwendungen im Source Code.

PDFmdx – Dokumente erkennen, Splitten und Metadaten extrahieren

2012-02-17 Von: Wolfgang May Kategorie(n): Metadaten, PDFmdx, Signatur, Software, Text Extraktion

PDFmdx ist eine Anwendung um PDF Dokumente auf Grund von definierten Bedingungen und Inhalten zu erkennen, zu klassifizieren sowie Gesamtdokumentenpackages in Einzeldokumente aufzusplitten.

Aus den klassifizierten und gesplitteten Einzeldokumenten werden an Hand von vordefinierten Feldtemplates die gewünschten Inhalte (Metadaten) ausgelesen und für die Weiterverarbeitung in eine Indexdatei geschrieben.

Auf diese Art und Weise lassen sich sowohl PDF Dokumente die direkt aus einer beliebigen Anwendung heraus z.B.: per PDF-Druckertreiber erzeugt, aber auch eingescannte Dokumente die per OCR Vorgang in durchsuchbare PDF´s (Image im Vordergrund und Text im Hintergrund) konvertiert wurden verarbeiten.

Neben der Erkennung, Aufteilung und Extraktion von Bereichsinhalten verfügt PDFmdx auch über weiterverarbeitende Funktionen zur Automatisierung von Abläufen.

  • PDF Briefpapier kann hinterlegt / überlagert werden.
  • PDF Signatur kann sichtbar / unsichtbar aufgebracht werden.
  • E-Mail Versand kann durchgeführt werden, wobei die für das E-Mail erforderlichen Informationen aus dem Dokumenteninhalt gewonnen werden.

Die Anwendung besteht aus zwei Programmteilen – dem PDFmdx Template Editor und dem PDFmdx Prozessor. Mit dem Template Editor werden die Kriterien und Verarbeitungsschritte konfiguriert und der Prozessor verarbeitet die Dokumente auf Basis der Templates.

PDFmdx – Einsatzbereiche:

  • Automatische Archivierung von Reports aus ERP, Lohnverrechnung usw. – Erkennung der Reporttypen, Extraktion von Metadaten für die Archivierung.
  • Automatische Archivierung von Rechnungen, Lieferscheinen, Auftragsbestätigungen über PDF Druckvorgang.
  • Automatische Weiterverarbeitung von Belegen – Versand von Terminbestätigungen, Rechnungen, Mahnungen, Auftragsbestätigungen per Einzel bzw. Gesamtdruckvorgang überPDF Druckertreiber oder PDF-Export – Hinterlegen von Briefpapier, Elektronische Signatur, E-Mail Versand.
  • Eingangs-Belegerfassung über Scanvorgang mit PDF-OCR : Belegerkennung und Metadatenextraktion für die Weiterverarbeitung bzw. Archivierung.

PDFmdx Template Editor – zur Erstellung von Templates für den PDFmdx Prozessor

01_PDFmdx Template Editor

Templates sind die Voraussetzung um die Dokumente zu kategorisieren, zu splitten und die gewünschte Information daraus auszulesen. Templates legen auch die zusätzlichen Verarbeitungen fest: Under/Overlay, Signatur und E-Mail Versand.

Zuerst müssen Kategorien erstellt werden – diese legen die Felder, Typen, Ausgabefolder und den Aufbau der Indexdatei fest. Kategorien werden dann in den Templates verwendet  und müssen nicht jedes Mal neu definiert werden. Z.B.: Die Feld/Datenstruktur für Eingangsrechnungen unterschiedlicher Lieferanten ist immer gleich – das Aussehen der unterschiedlichen Rechnungen, die Position und Anordnung der Felder ist jedoch immer verschieden. Also muss eine Kategorie für Eingangsrechnungen angelegt werden und dann pro Lieferant ein Template.

Funktionen – PDFmdx Kategorien:

03_Definition der Profil Kategorien - Felddefinitionen

  • Kategorien werden über Namen verwaltet – Neu anlegen, Kopieren, Umbenennen.
  • Auswahl Zielfolder für Indexdaten – entweder eine zusammengefasste Indexdatei für alle Dokumente oder pro Dokument eine Indexdatei.
  • Definition des Indexdatei Aufbaus – Text, Variablen und Felder sind verwendbar.
  • Definition – Zielfolder sowie Dateiname für die PDF Dokumente – auch unter Verwendung von Variablen / Feld-Inhalten.
  • Felddefinition – Name, Typ (Text, Ziffern, Buchstaben, Buchstaben und Ziffern), Führende Nullen entfernen, Entfernen von Text oder Zeichen Links oder Rechts z.b. „(123)“, Groß und Kleinschreibung ignorieren.
  • Felder hinzufügen, löschen, verschieben hinauf / hinunter.
  • Definition – Dezimal- und Tausender Trennzeichen – Punkt, Beistrich, Kein.

Funktionen – PDFmdx Template Editor:

02_PDFmdx Template Editor

  • Templates werden über Namen verwaltet und ausgewählt – Template Laden, Speichern, Kopieren, Neu anlegen, Umbenennen, Löschen.
  • Template exportieren / importieren – Alle benötigten Dateien werden in einer ZIP Datei zusammengefasst  gespeichert / geladen. Templates können damit auf andere Rechner oder PDFmdx Verarbeitungsstationen übertragen werden.
  • PDF Prototyp auswählen und dem Template zuordnen – Eine PDF Musterdatei wird ausgewählt und angezeigt und dient als Grundlage für die visuelle Positionierung der Felder.
  • Profil Kategorie auswählen – Damit wird das Template um die Feld-Definition sowie die Festlegung der Ziel-Folder /Namen ergänzt.
  • Grundeinstellungen Template Editor:  Auswahl der Text Extraktions Komponente, Farb- & Transparenz-Zuordnung für die visuelle Felddarstellung.

Funktionen – Voransicht PDF-Musterdatei:

  • Seite blättern, Seite per Nummer auswählen, Erste/Letzte Seite, Zoom In/Out, Anpassen – Breite/Höhe/Optimal anpassen.
  • Auswahl der über die Kategorie zur Verfügung gestellten Felder, Positionierung und Größenanpassung der Feld-Bereiche im PDF Viewer, Anzeige der Feld-Bereichsinformation (Seite, Bereichskoordinaten, Extrahierter Text, Kategorie, Feldname, Ziel Ordner).
  • Statusanzeige – Position, Größe, Seitengröße, extrahierter Text.

Konfiguration – Verarbeitungsfunktionen:

PDF-Overlay / Underlay
– auswählen /aktivieren/ deaktivieren, Nur erste Seite/Erste Seite auf allen Seiten anwenden/Erste Seite auf der ersten Seite und 2.Seite auf den Folgeseiten anwenden.

08_Template Settings Stationary

PDF-Signatur - aktivieren/deaktivieren, Auswahl Zertifikat, Zusatzinformationen für Signatur: Kontakt, Standort, Grund. Auswahl der Seite für die Signatur: Erste, Letzte, bestimmte Seite. Sichtbare Signatur: Positon (X/Y), Ankerpunkt, Größe (X/Y), Skalierung, Bild für die Darstellung auswählen.

09_Template Settings Signatur

PDF-Metadaten - Titel, Autor, Betreff, Schlüsselworte, Anwendung – fixer Text bzw. Verwendung von Variablen und Feldinhalten, Auslesen und Einfügen der bestehenden PDF-Metadaten über Variable möglich.

10_Template Settings PDF Metadata

Allgemeine Template Einstellungen – Referenzpunkt für die Anwendung des Templates auf dem zu verarbeitenden Dokument, Horizontal / Vertikal – Links / Mitte / Rechts. Erlaubte Toleranz der Seitengröße – Template und Verarbeitung.

11_Template Settings Allgemeine Einstellungen

Template Erkennungs- / Split-Bedingungen:

  • Anlegen und Bearbeiten der Bedingungen zur Erkennung des Templates – Vergleichstext/Suchbegriff – fix oder unter Verwendung von „Wildcards“ (*?#), in einen  bestimmten Feld / Text der ganzen Seite, Festlegung der zu durchsuchenden Seiten (Einzelseiten, Intervall, $ – bis zur letzten Seite).
  • Hierarchisch logische Verknüpfung der Bedingungen über UND / ODER

05_PDFmdx Template Designer - Template Recognition

  • Definition der Bedingungen für den Dokumentensplit  – auf Basis des Templates – Teilen nach fix definierten Seiten, Teilen falls sich der Inhalt eines bestimmten Feldes verändert, Teilen auf Basis von hierarchisch logische Bedingungen über UND / ODER gleich wie bei der Template Erkennung.

06_PDFmdx Template Designer - Split conditions

E-Mail Versand - Die Dokumente können auch automatisiert per SMTP E-Mail verschickt werden – im Template Editor wird eine E-Mail Vorlage für den Versand hinterlegt.

  • Eine individuelle über das Template gesteuerte oder allgemeine Absender E-Mail Adresse verwenden.
  • „an:“, „cc:“, „bcc:“ – fix, über Feld-Variablen, bzw. über Dokumenten E-Mail Adress-Suche belegbar. Für die Suche – Definition der zu durchsuchenden Seiten, Ausschließen von E-Mail Adressen.
  • Betreff, HTML E-Mail Body  – fixer Text bzw. Verwendung von Variablen und Feldinhalten
  • Anhängen zusätzlicher statischen E-Mail Attachments.

12_Template E-Mail Einstellungen

Template Test-Funktion – Im Template Editor ist eine Testfunktion vorgesehen mit der das aktuelle Template entweder mit der geladenen oder mit einer frei wählbaren PDF Datei getestet werden kann. Dabei werden die Feldnamen und die extrahierten Textinhalte angezeigt. Der „Test“ Button ermöglicht zu überprüfen – ob das aktuelle Template erkannt und bei welchen Seiten die PDF Datei geteilt werden würde.

13_PDFmdx Text Extraction & Split Test Function

PDFmdx – Prozessor:
Der PDFmdx Prozessor kann einen oder mehrere Inputfolder überwachen. Die Verarbeitung kann pro Folder entweder zeitgesteuert in einem bestimmten Intervall erfolgen oder manuell angestoßen werden.

14_PDFmdx processor

Funktionen PDFmdx – Prozessor:

  • Verarbeitungs-Folder – Neu anlegen, Löschen, Umbenennen
  • Templates neu einlesen, Template importieren
  • SMTP – E-Mail Konfiguration: Server, Port, SSL, Absender E-Mail, Benutzername, Passwort, Test E-Mail, Eigene E-Mail Konfiguration für Fehler.
  • Auswahl Input-Folder, Error-Folder
  • Versand von E-Mail aktivieren / deaktivieren – falls im Template eine E-Mail Funktion definiert wurde  kann diese hier generell für den ganzen Folder und allen zugeordneten Templates deaktiviert werden.
  • Folder-Scan Intervall festlegen, Anzeige der verbleibenden Zeit bis zum nächsten Scan, Automatisierten Folder-Scan aktivieren / deaktivieren. „Scan-Now“ Button.
  • Template – Auswahl: dabei wird für den aktuellen Folder festgelegt welche der vorhandenen Templates für die Dokumentenerkennung verwendet werden sollen.  Die Templates werden der Reihen nach abgearbeitet, bei der ersten Übereinstimmung der Kriterien wird die Verarbeitung mit dem gefundenen Template gestartet.
  • PreSplit der Dokumente: Normalerweise erfolgt zuerst eine Template-Erkennung und auf Basis des ersten erkannten Templates. Danach wird, falls vorgesehen das Gesamtdokument einer Aufteilung  unterzogen. Das funktioniert jedoch nur dann wenn es sich um gleiche Dokumente handelt. Sind jedoch verschiedene Dokumententypen im Stapel vorhanden so muss dieser zuerst in Einzeldokumente aufgeteilt werden. Um diese danach gegen die vorhandenen Templates zu identifizieren.
  • Für die PreSplit Funktion ist ein eigenes Template erforderlich – dieses dient jedoch nur dazu um Felder und Positionen zu haben um Splitkriterien aufbauen zu können – die Split-Bedingungen sind hierbei dem Ordner zugeordnet.

Download – PDFmdx Template Editor & Processor >>>

SplitRen – Dokumente – Erfassen, Teilen, Benennen – schnell und einfach

2012-02-16 Von: Wolfgang May Kategorie(n): Alfresco, Archivierung, OCR, Scannen, Software, SplitRen

SplitRen - „Split“ für Teilen und „Ren“ für Rename/Umbenennen – wurde entwickelt um sehr einfach und effizient Dokumente zu scannen, diese falls erforderlich in Einzeldokumente aufzuteilen und danach zu benennen. Dabei wurde versucht das Produkt für diesen Zweck von der Bedienung her einfach und effizient zu gestalten. Das wirkt sich positiv bei der schnellen Einsetz- und Erlernbarkeit der Software, sowie bei der zeitsparenden und schnellen Erfassung aus.
Die Dokumente werden als TIFF, PDF-Image oder PDF-OCR in einen Zielfolder exportiert, per E-Mail verschickt oder in einem Alfresco DMS/ECM Repository abgelegt.

1_SplitRen - Erfassen, Teilen und Benennen von Imagedokumenten 11_Funktionen - Dokumentenliste 12_Funktionen - Thumbnail Voransicht 13_Funktionen - Dokumentenvoransicht 14_Image Bereich markieren - Bereichs OCR, Löschen, Beschneiden

SplitRen Funktionen im Überblick:

  • TWAIN Scanfunktion – mit oder ohne TWAIN Dialog, Auswahl der TWAIN Quelle
  • Scannen von Dokumenten – SchwarzWeiss – 300dpi, TIFF Gr. 4
  • Einfügen von Image Dokumenten per Drag&Drop – Verschieben / Kopieren
  • Regelmäßiges automatisches Aktualisieren des Eingangsfolders für neu hinzugekommene Dokumente aktivierbar.
  • Dokumentenliste mit Anzeige der Namen
  • Dokumentenvoransicht: Zoom In/Out, Anpassen – Breite / Höhe / Optimal, Drehen Links/Rechts – 90°
  • Blättern: Anfang, Ende, Seite vor/zurück, Seite per Nummer auswählen.
  • Thumbnail Dokumenten-Voransicht:  Anzahl der anzuzeigenden Seiten – 1/2/5/10/20/50/100, Blättern – Anfang /Ende, Vor/Zurück.
  • Profilfunktion - Speichert alle Voreinstellungen und Konfigurationen unter einem Namen. Profile können – Neu erstellt, Kopiert, Umbenannt und gelöscht werden.
  • Admin – Konfigurationsmenü kann per Tastenkombination  eingeblendet werden – Der Admin ist damit in der Lage Profile zu erstellen und zu bearbeiten. Der normale Anwender wählt dann nur vorkonfigurierte Profile aus.
  • Dokument teilen – fix nach Seitenzahl, Teilen an der aktuell ausgewählten Seite  über selektiertes Thumbnail. Automatische Namensvergabe für die damit neu erzeugten Dokumente.
  • Markierte Thumbnails = Seiten – Löschen / Drehen Links 90° / Drehen Rechts 90°
  • Drag&Drop der Thumbnails zum Verschieben von Seiten innerhalb eines Dokuments um diese neu zu ordnen.
  • Drehen alle Seiten eines Dokuments – 90° nach Rechts / 90° nach Links
  • Ein oder mehrere Bereiche im Dokument markieren - Bereiche Löschen, auf Bereich zuschneiden, OCR über die Bereiche ausführen und als Dokumentennamen vorschlagen.
  • Umbenennen direkt in der Dokumentenliste – danach automatische Auswahl des nächsten Dokuments in der Liste. Verwendung von Bereichs-OCR sowie frei definierbare Tastenkürzel.
  • Zusammenführen mehrerer selektierter Dokumente aus der Liste zu einem Gesamtdokument – Die Reihenfolge kann vor dem Zusammenführen noch geändert werden.
  • Export: Einzelne, markierte oder alle Dokumente aus der Liste – als native TIFF Image, als PDF-Image oder als durchsuchbares PDF-OCR – in einen Zielfolder exportieren, als E-Mail versenden , nach ifresco / Alfresco über ein Dokumentenprofil hochladen.
  • Integrierte iOCR.NET OCR Engine für Bereichs OCR und Export als durchsuchbares PDF
  • AutoOCR Web-Service Integration für High Quality Abbyy FineReader OCR z.b. für Hintergrundverarbeitung beim Alfresco Batch Upload.
  • Hintergrund / Batchverarbeitung – für PDF-OCR Konvertierung und ifresco / Alfresco Upload – Die fertig erfassten Dokumente werden in eine eigene getrennte Dokumentenlist verschoben und von dort weiterverarbeitet – damit kann der User im Vordergrund sofort weitere Dokumente profilieren und bearbeiten während im Hintergrund die zeitintensiven Prozesse der OCR-Verarbeitung und des Dokumentenuploads stattfinden. Der Hintergrund Prozess kann automatisch gestartet aber auch angehalten werden – noch nicht fertig verarbeitet Dokumente können wieder in die Arbeitsliste zurückgeschoben werden.

SplitRen – ifresco / Alfresco – Upload:

Beim Upload in das Alfresco DMS/ECM Repository bekommt der User eine auf seinen Einsatz und Dokumententyp abgestimmte Maske zum Erfassen der Metadaten. Auf Basis der erfaßten Daten wird die komplette Ablage des Dokuments im Repository automatisch gesteuert. Der User muss sich keine Gedanken mehr über den Ablageort, Namen usw. machen. Auf der Maske stehen verschiedene Feldtypen zur Verfügung: Muss/Kannfelder, Lookup Felder mit Einfach- oder Mehrfachauswahl, Datums-, Numerische-, Text-Felder. Die Befüllung und Wartung  der Lookups kann über den Alfresco Kategoriebaum erfolgen. Die Erfassungsmaske, die dahinterliegende Logik und Datenverknüpfungen werden je nach Anwendungsfall individuell erstellt und angepaßt.

Beispielhaft die Profilmaske für die Erfassung eines Presseartikels:

15_Alfresco-Ifresco Dokumentenprofil 16_Alfresco-ifresco - Dokumentenprofile mit Einfach bzw,. Mehrfach Lookupauswahl 18_Alfresco Lookup Konfiguration für Dokumentenprofil

SplitRen Profile – Allgemeine Einstellungen:

  • Eingangsordner – legt den Arbeitsordner für die zu verarbeitenden Dokumente fest
  • Erweiterungen die verarbeitet und angezeigt werden sollen – TIF, TIFF, JPG, JPEG
  • Zielordner für den Exportvorgang
  • Archivordner – falls die Dokumente aus dem Eingangsordner erhalten bleiben sollen, Variable für User und Datum können verwendet werden.
  • Ordner für die ifresco Batch/Hintergrundverarbeitung
  • Definition von Tastenkürzel – es können Buchstaben oder Strings definiert werden die bei der Erfassung des Namens dann automatisch durch einen  hinterlegten Text ersetzt werden – das soll helfen immer wiederkehrende Texte effizient zu erfassen – z.b.: „r“ wird durch den Begriff „Rechnung“ ersetzt. Als Variable stehen zusätzlich Datum und Zeit zur Verfügung.
  • Hintergrund – Verarbeitung automatisch starten: Dabei können sowohl die OCR Verarbeitung als auch der ifresco/Alfresco Upload im Hintergrund erfolgen – die Option legt fest ob die Hintergrund Verarbeitung bei Programmstart auch gleich mitgestartet wird oder ob der User diese manuell startet.

2_Profile speichern alle Einstellungen unter einem gemeinsamen Namen 3_Tastenkürzel für die schnelle Erfassung von Textstrings

SplitRen Profile – Ausgabe Einstellungen:

  • Aktion nach der Verarbeitung: Löschen,  In Archiv Ordner, Behalten, Aktion abfragen. Legt fest was mit der Datei aus dem Eingangsordner nach der Verarbeitung passieren soll.
  • Aktion was passieren soll falls eine Datei im Zielfolder bereits vorhanden ist – soll diese „ersetzt“ , „übersprungen“, oder soll „ein Zähler“ an den Namen angehängt werden.
  • Zielformat für die  Aktionen – „Export“, „ifresco/Alfresco“ und „E-Mail“ – voreinstellbar – PDF-Image, PDF-OCR, oder „Native“ (TIFF).

4_Einstellungen für den Export

SplitRen Profile – OCR Einstellungen:

  • Auswahl der Verwendung der integrierten iOCR.NET Engine oder einer per Web-Service eingebundenen externen AutoOCR Verarbeitung
  • iOCR.NET – Einstellungen: Sprachauswahl, Farb-Komprimierung, JPEG-Qualität, Auflösung
  • AutoOCR – Web-Service URL, Username / Passwort, OCR-Profilauswahl.

5_OCR Einstellungen für die integrierten OCR funktionen sowie AutoOCR Web-Service

SplitRen Profile – Dokumentenupload nach ifresco / Alfresco:

6_Konfiguration der Alfresco-ifresco Integration

SplitRen Profile – E-Mail Konfiguration:

  • Vordefinierte E-Mail Empfängerlisten für „an:“, „cc:“ und „bcc:“
  • Zugriff auf MS-Outlook Kontakte
  • Durchsuchen des Dokuments nach E-Mail Adressen (nur für PDF-OCR)
  • „Betreff“ Template aus Text und Variablen definierbar
  • Templates für den E-Mail Body (ASCII oder HTML) hinterlegbar
  • Festlegung von zusätzlichen Anhängen (normal oder als ZIP)
  • „Interaktiver“ oder „Stiller“ Versand per MS-Outlook, MAPI, Lotus Notes oder SMTP

7_E-Mail Konfiguration zum Versand der Dokumente als Image oder PDF 8_E-Mail Vorbelegung für Nachricht 9_E-Mail Einstellungen für Anhänge 10_E-Mail Konfiguration - Schnittstelle E-Mail System