Kategorie: AutoOCR

ifresco AutoOCR – OCR Verarbeitung im Alfresco ECM / DMS integriert

AutoOCR ist ein OCR Service/Server der auf der momentan wohl besten OCR Engine von Abbyy aufbaut und über eine REST/SOAP Schnittstelle verfügt. AutoOCR ist in der Lage Image- und PDF-Dateien in durchsuchbare PDF zu konvertieren. Zusätzlich lassen sich aber auch TXT, DOC(X), XLS(X), PPT(X), XML, RTF und HTML erzeugen.

Die Konfiguration ist denkbar einfach und erfolgt über OCR Profile welche alle möglichen Einstellungen zusammenfassen. Über ein AMP Install-Modul erfolgt die direkte Integration von AutoOCR mit Alfresco. OCR Funktionen stehen damit in Alfresco als dynamisch konfigurierbare Transformer zur Verfügung. Entsprechende Bindings erlauben die Verwendung der der OCR Dienste auch aus JavaScript und Java heraus. Ab Alfresco 4.0 erfolgt die Konfiguration und Überwachung direkt über das UI der Share Administrator Konsole.

Darüber hinaus haben wir die Alfresco Share Dokumenten-Aktionen um die Alfresco Transformer Integration erweitert. Transformer Funktionen stehen damit beim jedem Dokument über die Share Oberfläche zur Verfügung und erlaubt die Konvertierung von Dokumenten in unterschiedliche Formate.

AutoOCR als Alfresco Transformer:

Die OCR Funktion wird dabei als Aktion direkt auf Ordner gebunden. Wird z.b. ein gescanntes Dokument in einen solchen Alfresco Ordner abgelegt so wird die Verarbeitung automatisch angestoßen und das Dokument an den AutoOCR Service übergeben. Das Ergebnis ist eine durchsuchbare PDF Datei die unmittelbar danach über den Alfresco Volltextindex gesucht und gefunden werden kann.

AutoOCR JavaScript Binding für Alfresco:

Das JavaScript API ermöglicht den direkten Zugriff auf den AutoOCR Service von Alfresco Scripts aus. In Repository JavaScripts (WebScript-Controller Scripts, Scripted Actions) können alle Funktionen des AutoOCR APIs aufgerufen werden. Dieses API ist vollständig unabhängig von der Einbindung der AutoOCR-Services als Alfresco-Transformer.

Alfresco Share – “Transform” Dokumentenaktion

Durch die Implementierung der “Transform” Dokumentenaktion in das Alfresco Share UI stehen neben der AutoOCR Verarbeitung auch alle anderen Alfresco Dokumententransformer zur Verfügung. Die Share “Transform” Funktion wurde allgemein und nicht nur auf die OCR Verarbeitung bezogen implementiert.

Highlights / Funktionen:

  • Direkte AutoOCR Einbindung als Alfresco Transformer über REST Web-Service Schnittstelle.
  • Getrennter AutoOCR Service / Server welcher den Alfresco Server nicht belastet
  • Basierend auf ABBYY – der führenden OCR Engine
  • Einfache Konfiguration über Auswahl von OCR Profilen – alle verfügbaren Abbyy OCR Engine Einstellungen werden damit zusammengefasst.
  • Neben PDF können parallel dazu weitere Ausgabeformate erzeugt werden (TXT, RTF, DOC, etc.)
  • Dynamische Transformer Konfiguration zur Laufzeit über die Alfresco Share-Admin Oberfläche.
  • JavaScript-Client für den AutoOCR Service, nutzbar in Alfresco Repository-Scripts (WebScripts, Actions, usw.)
  • Java-Client für den AutoOCR Service, zur Verwendung in Java Code. Der Java Client selbst hat keine Abhängigkeiten gegen Alfresco.
  • Dokumentenaktion “Transform” erweitert Alfresco Share nicht nur um OCR sondern um alle von Alfresco unterstützen Transformationen.

Voraussetzung:

  • Alfresco 4.x – dynamische Konfiguration über Share Userinterface
  • Alfresco 3.x – manuelle Konfiguration ohne Share UI
  • AutoOCR ab Version 1.9.8 unter Microsoft-Windows als Dienst
  • ABBYY FineReader Engine 10 (Lizenz ab 10.000 Seiten pro Monat)

20-autoocr-admin-status 22-autoocr-admin-transformerconfig2 23-autoocr-admin-jobs 01-autoocr-action-menu 02-autoocr-shareaction-dialog 03-autoocr-shareaction-transform-waiting 04-autoocr-shareaction-results 05-autoocr-shareaction-transformed-docs

Test und Demo Version ist verfügbar – Bitte kontaktieren Sie uns  >>>

Preis-Informationen finden Sie hier >>>

ifresco AutoOCR im ecm Market – Der Marktplatz für Alfresco Lösungen

Es gibt jetzt mit dem ecm Market unter www.ecm-market.de eine neue Plattform für Alfresco Lösungen und Add-On Module. Der ecm Market ist eine B2B-Plattform für kostenlose und kommerzielle Lösungen, sowohl für Alfresco Enterprise wie auch für Alfresco Community. Auf dieser Plattform bieten Softwarehäuser und Entwickler ihre Alfresco-basierten Lösungen für Unternehmen an. Auch wir bieten im ecm Market unsere Alfresco Lösungen an. Die erste dort verfügbare Lösung ist unsere Integration von Alfresco mit AutoOCR zur Erzeugung durchsuchbarer PDF´s.

ifresco AutoOCR Transformer im ecm Market >>>

AutoOCR 1.9.10 – Abbyy FineReader 10 Rel 4 sowie wesentliche Performancesteigerung

Zusammen mit der AutoOCR Version 1.9.10 steht auch die aktuellste Version der Abbyy FineReader 10 Release 4  – OCR Engine zur Verfügung. Wir konnten die Verarbeitungsperformance von AutoOCR wesentlich steigern und sind jetzt in der Lage Dokumente parallel zu verarbeiten sowie die OCR Erkennung mehrseitige Dokumente auf mehrere Prozessorkerne aufzuteilen. Steht die richtige Hardware zur Verfügung so kann damit die Performance im Vergleich zu einer nicht parallelen Verarbeitung mehr als verdoppelt werden.

Neuerungen der AutoOCR Version 1.9.10:

  • Unterstützung der aktuellsten Abbyy FineReader OCR Engine Version 10 – Release 4
  • Optimale Ausnutzung der Hardware Ressourcen für beste Performance:  Parallel & Multi-Processing / Multi-Threading – für Folder Verarbeitung sowie Web-Service  – individuell konfigurierbar. Wir können damit abhängig von der Hardware eine Beschleunigung der Verarbeitungsgeschwindigkeit um 100% und mehr erreichen. Eine typische Rechnung gescannt mit 4 Seiten – TIFF Gr. 4 – 300dpi kann damit auf unserem Testserver in nur 9 Sekunden in ein durchsuchbares PDF Dokument konvertiert werden.
  • Konfiguration der Kodierung der über die Abbyy OCR erzeugten TXT Datei.: Simple, UTF-8(default), UTF-16, Auto
  • Einfachere und klarere Konfigurationsmöglichkeit der Web-Service / REST Schnittstelle: Hostname, https und http Port, Check ob nicht die gleichen Portnummern vergeben wurden, Automatische Erzeugung der URL für die Service Endpunkte.
  • Neue Abbyy FineReader Option – Original Auflösung beibehalten (Ja / Nein). Damit wird nicht explizit eine bestimmte Auflösung (z.b.: 300dpi) vorgegeben, sondern die Auflösung der Images in der Ausgabedatei richtet sich flexibel nach der Auflösung in der Ursprungsdatei.
  • Über die Web-Service Schnittstelle (REST / SOAP) ist es jetzt auch möglich durchsuchbare PDF/A Dokumente zu erzeugen.
  • REST Web-Service Interface wurde um die Funktion zum „Löschen von Jobs“ erweitert.
  • Der .NET C# – Beispiel-Client wurde aktualisiert und an die neuen Funktionen angepasst.

Bitte beachten Sie: die AutoOCR Version 1.9.10 benötigt die Abbyy FineReader Version 10 Release 4 und umgekehrt.

Parallele Verarbeitung Neue REST & Web-Service Konfiguration Web-Service OCR Profile mit PDFA Option

Download – AutoOCR – Web-Service Beispiel-Client  inkl. C# Source >>>
Download – AutoOCR REST Web-Service Signature >>>
Download – AutoOCR REST Admin Web-Service Signature >>>

Download – AutoOCR – OCR Server >>>
Download- Abbyy FineReader 10.x Rel 4 OCR Engine Setup (ca. 460MB) >>>

Für die Abbyy OCR Engine Version 10 stehen Demolizenzen für 30 Tage bzw. 500 Seiten zur Verfügung – diese können Sie gerne bei uns anfordern

Demolizenzkey für FineReader OCR Engine anfordern

AutoOCR 1.9.9 – Web-Service Funktionen wesentlich erweitert

Mit der AutoOCR Version 1.9.9 wurden umfangreiche Erweiterungen in der Web-Service Funktionalität vorgenommen.

Ein getrenntes Setup installiert eine Web-Service Beispielanwendung inkl. .NET C# Source Code um die  einzelnen Web-Service Features zu veranschaulichen und testen zu können.

1_AutoOCR_Web-Service Beispielanwendung

Web-Service allgemeine Funktionen:

  • HTTP und abgesicherte HTTPS Kommunikation über Port 8001 und 8002 (konfigurierbar)
  • SOAP sowie REST Endpunkte für die Konvertier- sowie Administrator Funktionen.
  • HTTP-, HTTPS-Verarbeitungs- sowie Administrator Web-Service kann einzeln aktiviert und deaktiviert werden.
  • Authentifikation über HTTPS mit eigner Benutzerverwaltung über Username und Passwort
  • Neben den Dateierweiterungen kann auch mit dem MIME Typ der Ein- und Ausgabe-Dateien gearbeitet werden.
  • Versionsinfo des Servers sowie der verwendete Lizenz Hash Wert kann abgefragt werden.
  • Erzeugung zusätzlicher Dokumentenformate: mit oder ohne PDF sowie DOC, DOCX, RTF, XLS, XLSX, TXT, HTM, HTML, XML, PPT (Abbyy Engine)
  • UTF-8 Encoding als Default für die Textausgabe.
  • Statistik Funktion: Noch Verfügbare Seiten – falls die OCR Server Lizenz eine Beschänkung auf Seiten oder Monatskapazität aufweist, Anzahl der Seiten bzw. Dokumente die in der Warteschlange zur Verarbeitung  anstehen, Durchschnittliche Verarbeitungszeit in Sek. pro Seite – ermittelt aus den vorherigen Verarbeitungen.

2_AutoOCR_Web-Service Statistik Funktion

Web-Service OCR-Profil Funktion:

  • OCR Profile können als Datei (*.ocrprf) – herunter bzw. hinaufgeladen, aktualisiert und gelöscht werden.
  • Abfragemöglichkeit für OCR Profile: Unterstützte Eingangs- & Ausgangs-Dateierweiterungen sowie E/A-MIME Typen.

6_AutoOCR_Web-Service Administrator Funktionen

Web-Service Jobverwaltung:

  • Jobs können solange die Verarbeitung noch nicht gestartet wurde “abgebrochen” werden.
  • Jeder Job ist über eine eindeutige GUID identifiziert. Dieser  kann zusätzlich auch mit einem Text/Display Label versehen werden um den Job leichter erkenn- und lesbar zu machen.
  • Abfrage der Joblisten – Eigene bzw. Jobliste aller User mit Jobstatus und Fehlermeldungen.
  • Ausführliche Fehler Information zu Jobs mit Errorstatus.
  • Jobstatusinfo für: Alle, Erzeugten, Hochgeladenen, in Konverierung befindlichen, bereits Konvertierte, Heruntergeladene, Jobs mit Fehler, Abgelaufen, Abgebrochen – Jobs
  • “Max. Pages” Restriktion – die Job-Verarbeitung wird nur dann gestartet wenn die Anzahl der Seiten der aktuelle hochgeladenen Datei kleiner oder gleich sind  dem eingestellten “Max Pages” Parameter. Bei Größer geht der Job Status auf Error und die Datei wird nicht verarbeitet. Ist “Max. Pages” = 0 so wird der Check nicht durchgeführt und jede Datei wird verarbeitet.

5_AutoOCR_Web-Service - Job-Status Informaiton

Web-Service Benutzerverwaltung:

  • Default “Admin” User mit Standard Passwort wird bei der Installation angelegt, dieser User verfügt über alle Rechte und kann nicht gelöscht werden. Das Passwort des Users “Admin” kann nicht per Web-Service sondern nur direkt am AutoOCR Server verändert werden.
  • Benutzer können neu angelegt, bearbeitet und gelöscht werden.
  • Benutzer verfügen über ein Passwort und Berechtigungen
  • Benutzerrechte: Verbinden & Konvertieren, Eigene Jobliste abrufen, Jobliste aller User abrufen, Verarbeitung starten / anhalten, Benutzer verwalten, OCR Profile verwalten.

6_AutoOCR_Web-Service Administrator Funktionen 7_AutoOCR_Web-Service User Verwaltung 8_AutoOCR_Web-Service Authentifizierung über User und Passwort

Der AutoOCR Server verfügt jetzt auch über eine eigene Lizenzoption um die Web-Service Schnittstelle freizuschalten. Entwickler können ihre Anwendungen an die Lizenz des AutoOCR Server über einen Hash-Code der aus der Lizenznummer des Servers gebildet wird binden und damit schützen.

3_AutoOCR_Web-service Abruf der Serverinformation und Lizenznummer

Download – AutoOCR – Web-Service Beispiel-Client  inkl. C# Source >>>
Download – AutoOCR REST Web-Service Signature >>>
Download – AutoOCR REST Admin Web-Service Signature >>>

Download – AutoOCR – OCR Server >>>
Download- Abbyy FineReader 10.x OCR Engine Setup (ca. 440MB) >>>

Für die Abbyy OCR Engine Version 10 stehen Demolizenzen für 30 Tage bzw. 500 Seiten zur Verfügung – diese können Sie gerne bei uns anfordern

Demolizenzkey für FineReader OCR Engine anfordern

AutoOCR – Alfresco Transformer Modul / JavaScript / Java Client

Alfresco ist eines der leistungsfähigsten und innovativsten DMS/ECM Systeme. Dokumente werden über  Metadaten sowie Volltext verwaltet und können sehr schnell wiedergefunden werden. AutoOCR basiert auf Abbyy der wohl Besten verfügbaren OCR Engine. Wir haben diese beiden Produkte jetzt integriert und stellen damit die AutoOCR Funktionen in Alfresco zur Verfügung.

AutoOCR als Alfresco Transformer:

Die OCR Funktion wird dabei als Aktion direkt auf Ordner gebunden. Wird z.b. ein gescanntes Dokument in einen solchen Alfresco Ordner abgelegt so wird die Verarbeitung automatisch angestoßen und das Dokument an den AutoOCR Service übergeben. Das Ergebnis ist eine durchsuchbare PDF Datei die unmittelbar danach über den Alfresco Volltextindex gesucht und gefunden werden kann.

AutoOCR JavaScript Binding für Alfresco:

Das JavaScript API ermöglicht den direkten Zugriff auf den AutoOCR Service von Alfresco Scripts aus. In Repository JavaScripts (WebScript-Controller Scripts, Scripted Actions) können alle Funktionen des AutoOCR APIs aufgerufen werden. Dieses API ist vollständig unabhängig von der Einbindung der AutoOCR-Services als Alfresco-Transformer.

Highlights / Funktionen:

  • Direkte AutoOCR Einbindung als Alfresco Transformer über REST Web-Service Schnittstelle.
  • Getrennter AutoOCR Service / Server welcher den Alfresco Server nicht belastet
  • Basierend auf ABBYY – der führenden OCR Engine
  • Einfache Konfiguration über Auswahl von OCR Profilen  – alle verfügbaren Abbyy OCR Engine Einstellungen werden damit zusammenfassen.
  • Neben PDF können parallel dazu weitere Ausgabeformate erzeugt werden (TXT, RTF, DOC, etc.)
  • Dynamische Transformer Konfiguration zur Laufzeit über die Alfresco Share-Admin Oberfläche.
  • JavaScript-Client für den AutoOCR Service, nutzbar in Alfresco Repository-Scripts (WebScripts, Actions, usw.)
  • Java-Client für den AutoOCR Service, zur Verwendung in Java Code.  Der Java Client selbst hat keine Abhängigkeiten gegen Alfresco.

Voraussetzung:

  • Alfresco 4.x – dynamische Konfiguration über Share Userinterface
  • Alfresco 3.x – manuelle Konfiguration ohne Share UI
  • AutoOCR ab Version 1.9.8 unter MS-Windows

1_AutoOCR - alfresco transformer - status 2_AutoOCR - alfresco transformer connection configuration 3_AutoOCR - alfresco transformer configuration 4_AutoOCR - alfresco transformer job status

AutoOCR 1.9.6 – HTTPS / SSL Verschlüsselung und Authentifizierung

Mit der Version 1.9.6. von AutoOCR kann der Web-Service jetzt auch mit einer HTTPS / SSL Verschlüsselung arbeiten. Ebenso wird die MS-Windows Authentifizierung über Benutzernamen und Password unterstützt.  Das mitgelieferte C# Beispielprogramm zeigt wie diese Erweiterung funktioniert.

AutoOCR_HTTPS_Authentifizierung mit Username und Passwort AutoOCR - WebService Testanwendung

Download – AutoOCR – OCR Server >>>
Download- Abbyy FineReader 10.x OCR Engine Setup (ca. 440MB) >>>

Für die Abbyy OCR Engine Version 10 stehen Demolizenzen für 30 Tage bzw. 500 Seiten zur Verfügung – diese können Sie gerne bei uns anfordern

Demolizenzkey für FineReader OCR Engine anfordern

AutoOCR – PHP Library für REST Kommunikation

Die jetzt verfügbare AutoOCR PHP Library ermöglicht es die REST-Service basiernde OCR Verarbeitung von AutoOCR in eigene PHP Web-Anwendungen einzubinden. Ein erstes Beispiel einer solchen Integration ist der ifresco Client für das DMS / ECM System von Alfresco. Durch diese Integration mit ifresco ist es jetzt möglich sowohl beim Upload von Dokumenten bzw. bei Dokumenten die sich bereits im ifresco / Alfresco Repository befinden eine OCR Verarbeitung anzustoßen und durchsuchbare PDF Dokumente zu erzeugen.

Download – AutoOCR PHP Library für REST Kommunikation >>>

Voraussetzung: PEAR muss installiert sein mit “http/request” und  “net/socket”

AutoOCR 1.9.5 – Web-Service Endpoint, Netzwerk-Port und Abruf der WSDL Info

Mit der AutoOCR Version 1.9.5. gibt es jetzt auch eine Funktion um die für den AutoOCR  Web-Service notwendige WSDL Information abrufen zu können.

AutoOCR verfügt über den Web-Service Endpoint:

z.B.: http://localhost:8001/AutoOCRService2/

Über eine URL kann die WSDL Information abgerufen werden:

z.B.: http://localhost:8001/AutoOCRService2/?wsdl

Entwickler (z.b. Java) benötigen die WSDL Info um den AutoOCR Web-Service verwenden und die verwendete Entwicklungsumgebung (IDE) importieren zu können.

AutoOCR – WSDL – XML >>>

AutoOCR - WSDL file

Weiters ist es jetzt auch möglich eine Konfiguration der Endpoint Adressen sowie des verwendeten Netzwerks Ports (Default = 8001) durchzuführen.

AutoOCR Web-Service Konfiguration

AutoOCR – ReadMe  >>>

Download – AutoOCR – OCR Server >>>
Download- Abbyy FineReader 10.x OCR Engine Setup (ca. 440MB) >>>

Für die Abbyy OCR Engine Version 10 stehen Demolizenzen für 30 Tage bzw. 500 Seiten zur Verfügung – diese können Sie gerne bei uns anfordern

Demolizenzkey für FineReader OCR Engine anfordern

AutoOCR 1.9.4 – OCR Web-Service liefert mehrere Dokumentenformate

Mit der Version AutoOCR 1.9.4 ist es jetzt möglich über die Web-Service Schnittstelle parallel neben dem PDF Format auch weitere Dokumentenformate für das OCRte Dokument abzurufen.

Folgende Dokumentenformate stehen zusätzlich zur Verfügung: DOC, DOCX, RTF, XLS, XLSX, HTM, HTML, XML, PPT

13_AutoOCR - C# WFC - Web-Service Communication Sample

AutoOCR – ReadMe  >>>

Download – AutoOCR – OCR Server >>>
Download- Abbyy FineReader 10.x OCR Engine Setup (ca. 440MB) >>>

Für die Abbyy OCR Engine Version 10 stehen Demolizenzen für 30 Tage bzw. 500 Seiten zur Verfügung – diese können Sie gerne bei uns anfordern

Demolizenzkey für FineReader OCR Engine anfordern

AutoOCR – Neue Version 1.9.3 – Abbyy FineReader 10 Support

Mit der neuen AutoOCR Version 1.9.3 unterstützen wir neben der Abbyy FineReader OCR Engine Version 9.x, jetzt auch die aktuellste Version 10. Damit stehen alle neuen Funktionen und Features der Abbyy OCR Engine 10 sowie die verbessererte Nutzung der CPU und Rechnerkerne auch für AutoOCR zur Verfügung. Die Neuerungen zur Abbyy OCR Engine 10 – finden Sie hier beschrieben  >>>

1_AutoOCR - Definition der Verarbeitungs-Folder 1_AutoOCR - Ordner Eigenschaften 1_AutoOCR - Ordner Eigenschaften, PDFA, PDF Info-Felder 2_AutoOCR - Einstellungen 2_AutoOCR - Service Account Konfiguration 3_AutoOCR - Verarbeitungsoptionen 4_AutoOCR - Konfiguration Archiv & Fehler Ordner 5_AutoOCR - SMTP - Fehler Benachrichtigungen & Konfiguration 6_AutoOCR - Verarbeitungsprotokoll 7_AutoOCR - Verarbeitungslog 10_AutoOCR - Icon Tray Anwendung

Zusätzlich haben wir die Web-Service Funktionen erweitert. Mit der neuen Version wird jetzt auch eine .NET / C# / WCF – Beispielanwendung inkl. Source Code mitinstalliert. Die Anwendung verbindet sich über eine URL mit dem AutoOCR Server, ein OCR Profil kann ausgewählt und Dokumente können per Drag&Drop zur Verarbeitung in eine Queue eingefügt werden. Die Anwendung stellt die Kommunikation mit dem AutoOCR Server her, überträgt die Dateien zur Verarbeitung an den Server und zeigt den aktuellen Verarbeitungsstatus an. Nach erfolgreicher OCR Verarbeitung können die Ergebnisdokumente per Link aus der Queueliste direkt aufgerufen werden. Eine Statistikfunktion zeigt den Status der Verarbeitungsqueue, die durchschnittliche Verarbeitungszeit pro Dokument sowie das noch zur Verfügung stehende Seitenkontingent der Abbyy Lizenz.

11_AutoOCR - Web-Service Configuration - OCR Profile Config for web-service 13_AutoOCR - C# WFC - Web-Service Communication Sample12_AutoOCR - Web-Service - Statistics function

Download – AutoOCR – OCR Server >>>
Download- Abbyy FineReader 10.x OCR Engine Setup (ca. 440MB) >>>

Für die Abbyy OCR Engine Version 10 stehen Demolizenzen für 30 Tage bzw. 500 Seiten zur Verfügung – diese können Sie gerne bei uns anfordern

Demolizenzkey für FineReader OCR Engine anfordern