Autor: Wolfgang May

eDocPrintPro – XML Plugin – Version 2.0.2 – XML und Text Export aus PDF

Mit der Version 2.0.2. des eDocPrintPro – XML Plugin ist es jetzt auch möglich neben einer XML Datei auch eine ASCII Text Datei mit den Texten aus dem PDF zu erzeugen.  Dabei wird in der TXT Datei der Beginn und das Ende der einzelnen Seiten mit entsprechenden Schlüsselworten gekennzeichnet.

  • $$Start 1$$ – Kennzeichnet den Beginn der ersten Seite und
  • $$End 1$$ – das Ende der ersten Seite usw.

eDocPrintPro XML & TXT export

Download – eDocPrintPro – XML Plugin für 32bit OS >>>
Download – eDocPrintPro – XML Plugin für 64bit OS >>>

AutoOCR – Alfresco Transformer Modul / JavaScript / Java Client

Alfresco ist eines der leistungsfähigsten und innovativsten DMS/ECM Systeme. Dokumente werden über  Metadaten sowie Volltext verwaltet und können sehr schnell wiedergefunden werden. AutoOCR basiert auf Abbyy der wohl Besten verfügbaren OCR Engine. Wir haben diese beiden Produkte jetzt integriert und stellen damit die AutoOCR Funktionen in Alfresco zur Verfügung.

AutoOCR als Alfresco Transformer:

Die OCR Funktion wird dabei als Aktion direkt auf Ordner gebunden. Wird z.b. ein gescanntes Dokument in einen solchen Alfresco Ordner abgelegt so wird die Verarbeitung automatisch angestoßen und das Dokument an den AutoOCR Service übergeben. Das Ergebnis ist eine durchsuchbare PDF Datei die unmittelbar danach über den Alfresco Volltextindex gesucht und gefunden werden kann.

AutoOCR JavaScript Binding für Alfresco:

Das JavaScript API ermöglicht den direkten Zugriff auf den AutoOCR Service von Alfresco Scripts aus. In Repository JavaScripts (WebScript-Controller Scripts, Scripted Actions) können alle Funktionen des AutoOCR APIs aufgerufen werden. Dieses API ist vollständig unabhängig von der Einbindung der AutoOCR-Services als Alfresco-Transformer.

Highlights / Funktionen:

  • Direkte AutoOCR Einbindung als Alfresco Transformer über REST Web-Service Schnittstelle.
  • Getrennter AutoOCR Service / Server welcher den Alfresco Server nicht belastet
  • Basierend auf ABBYY – der führenden OCR Engine
  • Einfache Konfiguration über Auswahl von OCR Profilen  – alle verfügbaren Abbyy OCR Engine Einstellungen werden damit zusammenfassen.
  • Neben PDF können parallel dazu weitere Ausgabeformate erzeugt werden (TXT, RTF, DOC, etc.)
  • Dynamische Transformer Konfiguration zur Laufzeit über die Alfresco Share-Admin Oberfläche.
  • JavaScript-Client für den AutoOCR Service, nutzbar in Alfresco Repository-Scripts (WebScripts, Actions, usw.)
  • Java-Client für den AutoOCR Service, zur Verwendung in Java Code.  Der Java Client selbst hat keine Abhängigkeiten gegen Alfresco.

Voraussetzung:

  • Alfresco 4.x – dynamische Konfiguration über Share Userinterface
  • Alfresco 3.x – manuelle Konfiguration ohne Share UI
  • AutoOCR ab Version 1.9.8 unter MS-Windows

1_AutoOCR - alfresco transformer - status 2_AutoOCR - alfresco transformer connection configuration 3_AutoOCR - alfresco transformer configuration 4_AutoOCR - alfresco transformer job status

eDocPrintPro – XML Plugin – PDF Textinformationen als XML exportieren

Mit dem neuen eDocPrintPro XML Plugin kann die in der erzeugten PDF Datei enthaltenen Textinformation als strukturierte XML Datei ausgegeben werden.

Die XML Datei enthält folgende Information:

  • Name und Ablagepfad der PDF Datei
  • Einheit der Positions- und Größeninformaiton (mm / inch / Punkt)
  • Seitennummer / Seitengröße
  • Textstring
  • Umschreibende Box für den Textstring – Startposition / Höhe / Breite in mm/inch/Punkt

Auf Basis dieser strukturierten Information können weitere Auswertungen bzw. Verarbeitungsschritte angestoßen und ausgeführt werden.

Die XML Information kann verwendet werden um z.B.:

  • E-Mail Adressen oder Fax-Nummern auszulesen,
  • an Hand der Information zu erkennen um welchen Dokumententyp es sich handelt,
  • die Info bestimmter Bereiche als Metadaten für die Archivierung zu verwenden,
  • festzustellen bei welchen Seiten ein mehrseitiges Dokument in Einzeldokumente getrennt werden soll.

Extract Text information as XML from PDF PDF Textinformation als XML XML aus PDF - liefert Informationen über Position und Größe der Textbox der Teststrings

Download – eDocPrintPro – XML Plugin für 32bit OS >>>
Download – eDocPrintPro – XML Plugin für 64bit OS >>>

AutoOCR 1.9.6 – HTTPS / SSL Verschlüsselung und Authentifizierung

Mit der Version 1.9.6. von AutoOCR kann der Web-Service jetzt auch mit einer HTTPS / SSL Verschlüsselung arbeiten. Ebenso wird die MS-Windows Authentifizierung über Benutzernamen und Password unterstützt.  Das mitgelieferte C# Beispielprogramm zeigt wie diese Erweiterung funktioniert.

AutoOCR_HTTPS_Authentifizierung mit Username und Passwort AutoOCR - WebService Testanwendung

Download – AutoOCR – OCR Server >>>
Download- Abbyy FineReader 10.x OCR Engine Setup (ca. 440MB) >>>

Für die Abbyy OCR Engine Version 10 stehen Demolizenzen für 30 Tage bzw. 500 Seiten zur Verfügung – diese können Sie gerne bei uns anfordern

Demolizenzkey für FineReader OCR Engine anfordern

MakePDFA.NET – Version 1.0.25 verfügbar

MakePDFA.NET steht ab sofort in der aktuellen Version 1.0.25 zur Verfügung.

Folgende Erweiterungen wurden implementiert:

  • Integration der neuen Abbyy OCR Engine – FineReader 10 >>>
  • Neue iOCR.NET OCR Engine für OCR Verarbeitung ohne Seitenlimit >>>
  • zusätzliche  Active-X / COM Schnittstelle inkl. VB Beispielanwendung
  • PDF Security Funktionen um Passworte zu setzen und die PDF Funktionen einzuschränken
  • MSI (MSM) – Include Packages  verfügbar um  MakePDFA.NET einfach in eigene Setup´s einbinden zu können.

MakePDFA.NET COM - VB Beispielanwendung COM Komponente um PDF Sicherheitsfunktionen setzen zu können

Download – MakePDFA.NET >>>

Für die Konvertierung auf 64bit Betriebsystemen ist die Installation der 64bit Version unseres eDocPrintPro PDF(/A) Druckertreibers erforderlich.

Download eDocPrintPro:

Download – eDocPrintPro 32bit (~5MB) >>>
Download – eDocPrintPro PDF/A 32bit (~9MB) >>>

Download – eDocPrintPro 64bit (~5MB) >>>
Download – eDocPrintPro PDF/A 64bit (~9MB) >>>

AutoOCR – PHP Library für REST Kommunikation

Die jetzt verfügbare AutoOCR PHP Library ermöglicht es die REST-Service basiernde OCR Verarbeitung von AutoOCR in eigene PHP Web-Anwendungen einzubinden. Ein erstes Beispiel einer solchen Integration ist der ifresco Client für das DMS / ECM System von Alfresco. Durch diese Integration mit ifresco ist es jetzt möglich sowohl beim Upload von Dokumenten bzw. bei Dokumenten die sich bereits im ifresco / Alfresco Repository befinden eine OCR Verarbeitung anzustoßen und durchsuchbare PDF Dokumente zu erzeugen.

Download – AutoOCR PHP Library für REST Kommunikation >>>

Voraussetzung: PEAR muss installiert sein mit „http/request“ und  „net/socket“

AutoOCR 1.9.5 – Web-Service Endpoint, Netzwerk-Port und Abruf der WSDL Info

Mit der AutoOCR Version 1.9.5. gibt es jetzt auch eine Funktion um die für den AutoOCR  Web-Service notwendige WSDL Information abrufen zu können.

AutoOCR verfügt über den Web-Service Endpoint:

z.B.: http://localhost:8001/AutoOCRService2/

Über eine URL kann die WSDL Information abgerufen werden:

z.B.: http://localhost:8001/AutoOCRService2/?wsdl

Entwickler (z.b. Java) benötigen die WSDL Info um den AutoOCR Web-Service verwenden und die verwendete Entwicklungsumgebung (IDE) importieren zu können.

AutoOCR – WSDL – XML >>>

AutoOCR - WSDL file

Weiters ist es jetzt auch möglich eine Konfiguration der Endpoint Adressen sowie des verwendeten Netzwerks Ports (Default = 8001) durchzuführen.

AutoOCR Web-Service Konfiguration

AutoOCR – ReadMe  >>>

Download – AutoOCR – OCR Server >>>
Download- Abbyy FineReader 10.x OCR Engine Setup (ca. 440MB) >>>

Für die Abbyy OCR Engine Version 10 stehen Demolizenzen für 30 Tage bzw. 500 Seiten zur Verfügung – diese können Sie gerne bei uns anfordern

Demolizenzkey für FineReader OCR Engine anfordern

eDocPrintPro – E-Mail Plugin Version 3.3.3

Der freie E-Mail Plugin für den eDocPrintPro Druckertreiber wurde aktualisiert und steht jetzt in der Version 3.3.3 zur Verfügung. Die Setup´s wurden in eine 32bit und 64bit Version aufgeteilt. Ein Check wurde ins Setup integriert damit es zu keinen Verwechslungen bei der Installation kommen kann. Die Funktionen zum Extrahieren der Texte aus dem PDF wurde überarbeitet und verbessert. Mit den vorhergehenden Versionen hat es Probleme bei der Verarbeitung  von PDF´s die aus  bestimmten Anwendungen z.b. Notepad heraus erstellt wurden, gegeben.

Download – eDocPrintPro – E-Mail 32bit Plugin >>>

Webshop