Kategorie: AutoOCR

AutoOCR – Version 1.8.7 – REST – Web-Service Schnittstelle

Mit der Version 1.8.7. unseres OCR Servers AutoOCR wurde eine Web-Service Schnittstelle auf Basis von WCF / REST implementiert. Damit kann die OCR Verarbeitung von Anwendungen, Prozessen oder Serverdiensten im Netzwerk bzw. über Internet per HTTP Protokoll angesprochen werden.

Die Web-Service Schnittstelle kann parallel zur Folder Verarbeitung oder auch eigenständig aktiviert werden. Um die Konfiguration und die Übergabe der OCR Parameter möglichst einfach und flexibel zu halten werden OCR Profile verwendet. Dabei werden die OCR Einstellungen sowie OCR-Engine über Profilnamen am Server abgespeichert.  Die verfügbaren OCR Profile lassen sich über die Web-Service Schnittstelle abfragen. Wird eine Datei zur Verarbeitung an den OCR Server übergeben so kann der OCR Profilname mitgegeben und damit die Verarbeitungs-Einstellungen ausgewählt werden.

Alle gängigen Programmierumgebungen  – z.b. .NET, Java, PHP, JavaScript usw. – werden unterstützt. AutoOCR bietet damit im Netzwerk einen system- und anwendungsübergreifenden OCR Service der einfach angebunden und integriert werden kann.

AutoOCR - Web-Service Web-Service OCR Profile konfigurieren

Web-Service Konfiguration:

  • Auswahl – Folder für die Web-Service Jobs
  • Aufbewahrungsdauer der Jobs in Tagen –  verbliebene, nicht bereits gelöschte Jobs werden automatisch nach x Tagen gelöscht
  • Web-Service aktivieren / deaktivieren
  • Web-Service OCR Profile verwalten  (Anlegen / Bearbeiten / Löschen) – Konfiguration der OCR Engine / Parameter, Default festlegen

Mitgeliefert wird eine ASP.NET basierende Beispiel Web-Applikation um die Funktionen des Web-Services testen und demonstrieren zu können. Diese muss über Microsoft Visual Studio aufgerufen und ausgeführt werden. Ist der OCR-Server auf einem anderen Rechner installiert so muss in der “AutoOCRDemo.htm” sowie “Web.config” Datei die AutoOCRBaseUrl Adresse entsprechend angepaßt werden. Die AutoOCRBaseUrl für den lokalen Aufruf lautet: http://localhost:8001/AutoOCRService/

Download – AutoOCR – OCR Server >>>
Download – ASP.NET – Beispiel für Web-Service >>>

Download- Abbyy FineReader 9.x OCR Engine Setup >>>
Demolizenzkey für FineReader OCR Engine anfordern

AutoOCR – Version 1.8.6 – als Service

Beim Setup kann entschieden werden ob AutoOCR als normale Anwendung oder als Dienst installiert wird.

Bei der Verwendung als Dienst sind verschiedene Dinge zu beachten:

Download- Abbyy FineReader 9.x OCR Engine Setup >>>
Download – AutoOCR – OCR Server >>>
Demolizenzkey für FineReader OCR Engine anfordern

Windows Dienst – Zugriff auf Netzwerkressourcen – was ist zu beachten ?

Unsere Anwendungen zur Dokumentenkonvertierung – FileConverter, AutoOCR bzw. FileConverterPro – dienen dazu einen oder mehrere Eingangsordner zu überwachen und für neu hinzukommende Dokumente die Verarbeitung automatisch zu starten. Das kann entweder über lokale Laufwerke aber auch über Netzwerk Ressourcen erfolgen.

Besonders bei der Installation der Anwendungen als Dienst und bei Verwendung von Netzwerk Ressource sind einige Dinge hinsichtlich der richtigen Konfiguration zu beachten:

  • Der Dienst der auf Netzwerk Ressourcen Zugriff haben soll muss unter einem User Account laufen und nicht als System Account.
  • Der User unter dem der Dienst läuft muss über die entsprechenden Rechte (Lesen / Schreiben / Löschen) auf die Netzwerkressource verfügen.
  • Für den Zugriff auf die Netzwerk-Ressourcen (In- / Out- / Error- / Archiv- / Log-Folder) darf kein gemapptes Laufwerk verwendet werden sondern es muss der direkte Netzwerk Share (UNC Pfad) verwendet werden.
  • Die Verarbeitungsoption für das Folder-Monitoring muss von “File System Events” auf “Read File Blocks” umgestellt werden.

Die Netzwerk Verbindung auf einen Laufwerks Buchstaben wird über das “Network Connection Service” verwaltet – Mappt man ein Laufwerk so gibt es einige Dinge die man wissen sollte

  • Option – Reconnect beim Logon – Dient dazu um das Laufwerk Mapping beim nächsten Login automatisch wieder herzustellen.
  • Das Mapping der Laufwerke wird über User realisiert – ist der User nicht eingeloggt so sind die gemappten Laufwerke nicht verfügbar.
  • Über einen Dienst – unabhängig davon ob dieser mit dem gleichen Account wie der aktuell eingeloggte User läuft ist oder nicht – sind gemappte Laufwerke nicht verfügbar – da ein Service nur unter den “User Credentials” läuft, selbst aber nicht eingeloggt ist.

Generell – auch falls die Anwendungen nicht als Service installiert und betrieben wird – empfiehlt es sich Netzwerk Shares (UNC Pfade) an Stelle von gemappten Laufwerken zu verwenden. Ein Netzwerk Share – der direkter Zugang zur Netzwerk Ressource – ist sowohl für den Dienst (unter einem User Account) als auch für normale Anwendungen immer verfügbar und wird vom Remote Server definiert. Das gilt jedoch nicht für den lokalen System Account – dieser hat keinen Zugriff auf Netzwerk Ressourcen und kann daher nicht für einen Dienst verwendet werden der auf Netzwerk Ressourcen Zugriff haben muss.

Office2PDFA & AutoOCR – als Service – was ist zu beachten ?

Office2PDFA und AutoOCR können als normale Anwendung aber auch als Service installiert werden – Was ist bei der Installation als Service zu beachten ?

  • Beide Anwendungen können sowohl auf 32bit als auch auf 64bit Betriebssystemen – als Service bzw. als normale Anwendung installiert werden. Für Office2PDFA muss jedoch je nach Betriebsystem entweder der 32bit bzw. der 64bit eDoc PDF oder PDF/A Druckertreiber installiert werden.
  • Werden die Anwendungen als Service installiert und ist die UAC eingeschalten so kommt beim Start der Konfigurations / Kontrolloberfläche eine Messagebox hoch die bestätigt werden muss.
  • Aufgepaßt werden sollte bei der Auswahl des Speicherorts für die Konfigurationsdateien – diese können  beim Start festgelegt werden – hierfür sollte nicht der Installations-Ordner oder -Unterordner der Anwendung verwendet werden bzw. es sollte kein Ordner ausgewählt werden der von normalen Anwendern nicht beschrieben werden darf.
  • Die Archiv und Errror Folder sowie die Eingangsfolder sollten für den konfigurierten Users bzw. vom System über Schreib und Leserechte verfügen.
  • Der SYSTEM User verfügt nicht über die Rechte um auf Netzwerk Ressourcen zugreifen zu dürfen. Wird ein Service unter dem SYSTEM Account betrieben so müssen aus diesem Grund alle Ordern lokal auf dem Rechner liegen. Sollen Netzwerk Ressourcen verwendet werden so muss der Dienst unter einen User Account  laufen der auch über die entsprechenden Rechte zum Zugriff auf die Netzwerk-Ressourcen verfügt.
  • Wird MS-Outlook zur Konvertierung verwendet so ist jedenfalls auch ein User Account für den Office2PDFA Service erforderlich. Unter MS-Outlook muss einmalig vorher für diesen User ein Profil angelegt und konfiguriert werden.
  • Soll die Abbyy FineReader OCR Engine unter MS-Windows 7 bzw. MS-Server 2008 als Service unter einem User Account mit einem Abbyy Dongle verwendet werden so muss darauf geachtet werden dass bei der Installation des Dongel Treibers nicht automatisch ein “Virtueller CardReader” mit installiert. Wird dieser installiert so kann die Software den Dongle nicht ansprechen und die Lizenz kann nicht verwendet werden. In so einem Fall muss der iKey 1000 Dongel Treiber deinstalliert und mit einem bestimmten Commandline Parameter neu installiert werden.

PDF OCR Tool – PageCount – Ermitteln der zu verarbeitenden Seiten

Eine wichtige Information um die voraussichtlich benötigte OCR Verarbeitungszeit zu ermitteln ist die Anzahl der zu verarbeitenden Seiten.  Denn eine Datei kann eine aber auch hunderte Seiten umfassen. Diese Information ist auch für die erforderliche Abbyy OCR Lizenz notwendig zu wissen um feststellen zu können ob ein vorhandenes oder geplantes Seitenkontingent für die anstehende Verarbeitung ausreichend ist.

Page count for OCR

Der ausgewählter In-Folder wird nach OCR-fähigen Dateiendungen durchsucht. Folgende Endungen werden gesucht: PDF, TIF, TIFF, PNG, JPG, BMP, GIF, PCX, DCX. Da PDF und TIFF multipage fähige Dateiformate sind werden für diese Dateien die Anzahl der Seiten pro Dokument ermittelt. Als Ergebnis wird für jeden Ordner die Anzahl der Seiten sowie die Gesamtzahl aller Seiten für die komplette Ordnerstruktur ausgegeben.

Download – PDF OCR Tool – PageCount >>>

PDF OCR Tool – MoveFiles – Verschiebe die nicht per OCR verarbeitbaren Dateien

Für OCR und zur Vorbereitung der Verarbeitung ganzer Ordnerstrukturen möchte man die durch den OCR Vorgang zu verarbeitenden Dateien von allen Anderen trennen. In weiterer Folge kann dann festgestellt werden  wie viele Seiten per OCR zu verarbeiten sind.

In dem Zusammenhang kann auch ein weiteres Tool zum Einsatz kommen um “normale” PDF Dateien die bereits Text enthalten von den reinen Image PDF Dateien zu trennen um anschließend nur diese zu verarbeiten. Informationen darüber finden Sie hier >>>

Move files

Alle von AutoOCR unterstützten Dateiendungen sind bereits voreingestellt – Dateien mit diesen Endungen verbleiben im ausgewählten In-Folder, während alle anderen Dateien in den Out-Folder unter Berücksichtigung der Ordnerstruktur verschoben werden.

Download – PDF OCR Tool MoveFiles >>>

PDF OCR Tool – PDFFilter – Filtert PDF´s die bereits Textinformation enthalten

Wir sind immer wieder mit der Anforderung konfrontiert einen bestehenden Dokumentenbestand in ein DMS/ECM System zu importieren. Die Dokumente liegen in allen möglichen Formaten in großer Menge im Dateisystem. Neben den üblichen MS-Office Formaten werden immer öfter auch PDF Dokumente abgelegt. Scans werden heute üblicherweise auch bereits als PDF gespeichert. Bei der Übernahme / Import möchte man nun alle vorhandenen PDF Dokumente durchsuchbar machen damit man später möglichst einfach auch über den Inhalt der Dokumente finden kann.

Es wäre nun möglich einfach alle vorhandenen PDF Dokumente durch die OCR Verarbeitung (z.b. AutoOCR)  zu “schicken”, unabhängig davon ob die PDF Datei bereits durchsuchbar ist oder nicht. Das ist an sich technisch möglich da bei der OCR Verarbeitung jede PDF Datei verarbeitet werden kann egal wie diese erstellt wurde – das ist jedoch nicht sinnvoll da z.b. eine per PDF Druckertreiber aus einer Anwendung heraus erzeugte PDF Datei bereits eine durchsuchbare PDF Datei ist und jede zusätzliche OCR Verarbeitung – die Datei nur größer macht sowie Verarbeitungszeit als auch Seiten der OCR Lizenz kosten. Und das kann je nach Verteilung und Anzahl der PDF Dokumente ein wesentlicher Zeit- und Kostenfaktor sein.

Deswegen sollte man jedenfalls nur jene PDF Dokumente einer OCR Verarbeitung unterziehen die diese wirklich auch benötigen. Aus diesem Grund stellen wir das kostenlose Tool – PDFFilter zur Verfügung mit dem gezielt diese Dokumente gefunden und herausgefiltert werden können.

Funktionen:

  • Start-Ordner – alle darunter liegenden Unterordner werden verarbeitet – Ziel ist es dass nur jene PDF überbleiben die einer OCR Verarbeitung unterzogen werden sollen.
  • Ziel-Ordner – in diesen werden die PDF´s verschoben die keiner OCR Verarbeitung bedürfen – Ordnerstruktur und Dateiname bleiben erhalten.
  • Ordner für “Geschützte PDF” – PDF´s mit Passwortschutz zum Öffnen können nicht OCR verarbeitet werden – PDF werden in diesen Ordner verschoben.
  • Selektion “Verschieben” über – “PDF enthält bereits einen Text”, Selektion aus einer Liste “Anwendung mit der das PDF erstellt wurde” oder “Erzeugt mit” Info – diese beiden Infos sind PDF Metadaten die aus den vorhandenen PDF´s ausgelesen und als Liste zur Selektion angeboten werden. Dient dazu gezielt PDF´s herauszufiltern die nicht OCR verarbeitet werden müssen.
  • Bestehende Datei bereits vorhanden – Überschreiben, Überspringen, Zähler anhängen.

PDFFilter_search for text PDF PDFFilter_select by applicaiton or created with info_1 PDFFilter_select by applicaiton or created with info_2

Download – PDF OCR Tool – PDFFilter >>>

Abbyy Lizenzupdate – how to do

Falls Sie die Abbyy Lizenz für eines unserere OCR Produkte auf einem USB Doungle haben und Sie möchten die Lizenz erweitern um z.B. ein größeres Seitenkontingent pro Monat nutzen zu können, kann dies per Software und Online Verbindung recht einfach und kurzfristig erfolgen. Sie bekommen von uns dafür eine neue Lizenznummer zugeschickt welche Sie anschließend wie nachfolgend beschrieben aktivieren können.

Verwenden sie zum Update und Einspielen der Lizenz folgendes Tool

Abbyy FineReader Dongle Updater Tool

Gehen Sie wie folgt vor:

  1. Entpacken Sie das Tool in ein separates Verzeichnis.
  2. Stecken Sie den Dongle mit der jeweiligen Lizenz an den Rechner an.
  3. Starten Sie von der Kommandozeile DongleUpdate.FREngine.exe mit dem Parameter /UpdateLicense z.B.: C:\Temp\DongleUpdate.FREngine.exe /UpdateLicense
  4. Wählen Sie die jeweilige Lizenz aus, klicken Sie den <Update License> Button und folgen Sie dem Wizard.

Für Schritt 4. Benötigen Sie eine Internetverbindung.

AutoOCR – Version 1.8.2 verfügbar

Erweiterungen der Version 1.8.2 :

Einzelseiten Verarbeitung von mehrseitigen Dokumenten: Split vor der OCR Verarbeitung von Multipage auf Singlepage Dokumente für TIFF und PDF – Bei der Verarbeitung von sehr umfangreichen Dokumenten mit hunderten oder tausenden Seiten lädt die OCR Engine normalerweise alle Seiten in den Speicher und startet dann die Verarbeitung. Das benötigt bei großen Dokumenten sehr viel an Speicher – ist dieser nicht vorhanden so verlangsamt dies die Verarbeitung. Falls ein solches Mehrseitendokument einzelne fehlerhafte Seiten aufweist die nicht verarbeitet werden können – so kann bei einer “Gesamtverarbeitung” das ganze Dokument nicht verarbeitet werden. Das ist jedoch speziell bei umfangreichen Dokumenten ein Nachteil. Aus diesem Grund wurde eine Funktion implementiert mit der es möglich ist die OCR Verarbeitung auf Basis von Einzelseiten durchzuführen – wobei der Input als auch der Output wieder als Mehrseiten-Dokument erfolgt. Damit können auch mit wenig Hauptspeicher beliebig große Dokumente ohne Probleme und mit immer der gleichen Performance verarbeitet werden. Bei einem Fehler auf einer einzelnen Seite wird damit nicht das ganze Dokument als fehlerhaft abgelehnt.

Ersetzen von OCR Error Seiten  durch PDF Image Seiten – falls ein Fehler bei der Einzelseiten OCR Verarbeitung auftritt wird so kann eine einzelne Seite auch durch eine direkt konvertierte PDF Image Seite ersetzt werden.  Dies kann speziell bei sehr umfangreichen Dokumenten mit hunderten oder tausenden Seiten die Lösung zur erfolgreichen Verarbeitung der Gesamtdatei darstellen.

Löschen von leeren Seiten – Bei der Einzelseitenverarbeitung gibt es jetzt auch eine Option die es ermöglicht einen Schwellwert für leere Seiten festzulegen – Liegt die Dateigröße einer Seite unter dem eingestellten Schwellwert so wird diese in einen vordefinierten “Leere Seiten Ordner” verschoben und in der Verarbeitung übersprungen. Sie wird damit auch nicht in die Ausgangsdatei eingefügt.

Einzelseitenverarbeitung & Löschen von leeren Seiten

Image2PDF Verarbeitung als Verarbeitungs-Option bei Ordnern – AutoOCR kann jetzt auch dazu verwendet werden um per Foldermonitoring – Imagedateien direkt nach PDF oder PDF/A zu konvertieren. Es wurden die Funktionen unserer Image nach PDF(/A) Verarbeitung in die AutoOCR Software integriert. Weitere Informationen zur Image nach PDF(/A) Konvertierung finden sie hier >>>

OCR Engine oder Image nach PDF stehen zur Auswahl

Unterstützung der Abbyy FineReader Engine Version 9.x – Neben der zuletzt gültigen Version 8.1 unterstützt AutoOCR jetzt auch die Version 9.x – die Version der installierten Engine sowie die von Ihr unterstützten Dateiformate werden erkannt und als „Verfügbar“ bei der Konfiguration der zu überwachenden Ordner angezeigt.

Download – AutoOCR – OCR Server >>>
Download – FineReader OCR Engine 9.x >>>

Für die Verwendung der FineReader OCR Engine ist eine Demokey erforderlich – dieser ermöglicht Ihnen alle Optionen mit 500 Seiten innerhalb von 30 Tagen kostenlos zu testen. Falls Sie das Produkt mit der FineReader OCR Engine testen wollen so fordern Sie bei uns bitte einen Demo-Lizenzkey  an.

Demolizenzkey für FineReader OCR Engine anfordern

AutoOCR – OCR Server – erzeugt durchsuchbare PDF und PDF/A Dokumente

AutoOCR ist ein OCR Prozessor der vordefinierte Folder überwacht und neu hinzukommende als auch geänderte Image- und PDF Dokumente automatisiert in per Volltext durchsuchbare PDF bzw. PDF/A Dokumente umwandelt.

AutoOCR ist in der Lage mehrere unterschiedliche OCR Engines zu integrieren und parallel zu verwenden. AutoOCR kann damit jederzeit auf neue OCR Engines angepasst und erweitert werden. Der Anwender kann je nach Anforderung die für Ihn am Besten geeignete Lösung zusammenstellen. Momentan unterstützt AutoOCR 2 OCR Engines – iOCR – da unlimitiert und schnell sowie Abbyy FineReader –  die Beste momentan verfügbare OCR Engine. Weitere Engines können jederzeit über ein standardisiertes Interface – „Generic OCR” hinzugefügt und integriert werden.

AutoOCR – Highlights

  • Überwachen von Ordnern bzw. Ordnerstrukturen – nach neu hinzugekommen bzw. geänderten Dokumenten
  • Unterstützte Input-Formate – Abbyy Engine – PDF, TIF, PNG, JPG, BMP, GIF, PCX, DCX
  • Non Stop – Monitoring der überwachten Ordner zur serverbasierenden Verarbeitung
  • Commandline Aufruf für Start der Verarbeitung nach Anforderung
  • „Custom Action Scripts” über C# und VB.NET ermöglichen das Ausführen von Aktionen vor und nach der Verarbeitung einer Datei
  • Unterstützt mehrere OCR Engines – momentan iOCR sowie FineReader
  • Erzeugt „hybride” per Volltext durchsuch- und indexierbare PDF bzw. PDF/A Dokumente
  • Protokollierung der Konvertierungen / Fehler / Warnungen in einer Datenbank
  • E-Mail Benachrichtigung im Fehlerfall / Verarbeitete Dokumente können in einen Archivordner, Error – Dokumente in einen Fehlerorder verschoben werden.

AutoOCR – Screen Shots

AutoOCR - OCR Server - erzeugt durchsuchbare PDF und PDF/A Dokumente AutoOCR - Ordner Eigenschaften Abbyyy FineReader Eigenschaften Abbyyy FineReader Eigenschaften Abbyyy FineReader Eigenschaften Abbyyy FineReader Eigenschaften abbyy_finereader_eigenschaften__5.png iOCR Eigenschaften GenOCR Eigenschaften AutoOCR - PDF Export Eigenschaften AutoOCR - Einstellungen AutoOCR - Verarbeitungsoptionen AutoOCR - Archiv / Fehler Einstellungen AutoOCR - E-Mail Einstellungen AutoOCR - E-Mail Einstellungen AutoOCR - Protokoll AutoOCR - Verarbeitungs Log