Kategorie: AutoOCR

Abbyy FineReader 10 Release 3 – OCR-Engine Runtime verfügbar

Wir haben jetzt als neue Basis für unsere Anwendungen die aktuellste Version der Abbyy FineReader OCR Engine 10 Release 3 implementiert. Damit stehen eine Vielzahl an Neuerungen und Verbesserungen bei der OCR Verarbeitung zur Verfügung.

Neuerungen Abbyy FineReader OCR-Engine 10 Release 3:

  • Vordefinierte OCR Profile
  • Bild Vor-Verarbeitungsfunktionen
  • Spezielle Funktionen  für die Verarbeitung von Kamera Bildern

Unterstützt werden alle gängigen 32 und 64bit Versionen von MS-Windows. Multiprozessor und Multi-Core Verarbeitung wird zur Beschleunigung der OCR Verarbeitung ebenfalls unterstützt und empfehlen eine Speicherausstattung von mindestens 2GB RAM.

Was ist Neu mit der Abbyy FineReader 10 Engine >>>
Abbyy FineReader 10 – Produktübersicht >>>
Abbyy FineReader Gesamt Funktionsübersicht – Version 5 bis 10 >>>

1_Abbyy FineReader 10 Engine - Vordefinierte Profile 2_Abbyy FineReader 10 Engine - Allgemeine Einstellungen 3_Abbyy FineReader 10 Engine - Bildverarbeitung 4_Abbyy FineReader 10 Engine - Einstellungen - Seiten Analyse5_Abbyy FineReader 10 Engine - Einstellungen - Seiten Zusammensteellung 6_Abbyy FineReader 10 Engine - Einstellungen - PDF Export 7_Abbyy FineReader 10 Engine - Einstellungen - XML Export

Download- Abbyy FineReader 10.x OCR Engine Setup (ca. 440MB) >>>

Abbyy FineReader 10.x Dongle Updater Tool >>>

Für die Abbyy OCR Engine Version 10 stehen Demolizenzen für 30 Tage bzw. 500 Seiten zur Verfügung – diese können Sie gerne bei uns anfordern

Demolizenzkey für FineReader OCR Engine anfordern

AutoOCR – Version 1.8.8 – Web-Service Erweiterungen

Mit der Version 1.8.8 von AutoOCR wurden einige Erweiterungen für die Web-Service Schnittstelle implementiert.

Web-Services – AutoOCR Server:

  • GetSettingsCollection – Abfrage der verfügbaren OCR Settings Collections
  • UploadJob mit Übergabe des Namens für das OCR Profil (SettingsCollection)
  • User Authentication – Username / Password
  • GetNrOfPages – Abfrage der Seiten für einen Job
  • GetStatus – Abfrage aktueller Jobstatus – 0 bis 7
  • GetJob – Abfrage von Status, Seitenanzahl, Job GUID, Job ID
  • GetResultCount – 0/1 – vor/nach OCR Verarbeitung
  • GetResultExt – Extension der OCR Ergebnisdatei – z.B.: PDF
  • GetResultEx – Job abholen mit Möglichkeit den Job direkt zu löschen
  • RemoveJob – Job löschen
  • GetAvailablePages – Anzahl der verfügbaren Seiten der OCR Engine
  • GetNrOfPagesInQueue – Anzahl der Seiten in der Job Queue
  • GetNrOfDocumentsInQueue – Anzahl der Dokumente in der Job Queue
  • GetAvgSecPerPage – Durchschnittliche Zeit pro Seite in Sek.

AutoOCR – Service Contract Signature >>>

Der Web-Service hat eine Funktion GetStatus(jobID) über die von Zeit zu Zeit der Status für einen Job mit einer bestimmten JobID abgefragt werden kann. Die JobID wird von der Job Upload Funkton UploadJobEx (oder UploadJob) zurückgeliefert. Wird der Wert “0” zurückgeliefert bedeutet dies dass der Job noch nicht hochgeladen wurde.

GetStatus liefert folgene Werte zurück:

  • 1 – Created – Job wurde angelegt und noch nicht hochgeladen – intern verwendeter Status – wird nie zurückgeliefert.
  • 2 – Uploaded – Job wurde hochgeladen und befindet sich in der Verarbeitungs-Warteschlange
  • 3 – Converting – Job befindet sich gerade in der OCR Verarbeitung
  • 4 – Converted – Job wurde erfolgreich OCR verarbeitet und steht zum Donwload bereit.
  • 5 – Downloaded – Job wurde bereits heruntergeladen.
  • 6 – Conversion Error – Fehler bei der Verarbeitung des Jobs.
  • 7 – Expired – Job abgelaufen, Dateien wurden nach einer eingestellten Zeit von x Tagen automatisch gelöscht.

Weitere Neuerungen:

  • Web-Service Jobs können priorisiert werden d.h. ein Job über Web-Service übergeben wird einem Eingangsfolder-Job vorgezogen.
  • OCR Profile für den Web-Service lassen sich über ein Infofeld detailliert beschreiben.  Die Remote Applikation kann also neben dem Namen zusätzliche beschreibende Information anzeigen.
  • Aktualisierte Web-Service Beispiel Anwendung

Download – AutoOCR – OCR Server >>>
Download – ASP.NET – Beispiel für Web-Service >>>

Download- Abbyy FineReader 9.x OCR Engine Setup >>>
Demolizenzkey für FineReader OCR Engine anfordern

AutoOCR – Version 1.8.7 – REST – Web-Service Schnittstelle

Mit der Version 1.8.7. unseres OCR Servers AutoOCR wurde eine Web-Service Schnittstelle auf Basis von WCF / REST implementiert. Damit kann die OCR Verarbeitung von Anwendungen, Prozessen oder Serverdiensten im Netzwerk bzw. über Internet per HTTP Protokoll angesprochen werden.

Die Web-Service Schnittstelle kann parallel zur Folder Verarbeitung oder auch eigenständig aktiviert werden. Um die Konfiguration und die Übergabe der OCR Parameter möglichst einfach und flexibel zu halten werden OCR Profile verwendet. Dabei werden die OCR Einstellungen sowie OCR-Engine über Profilnamen am Server abgespeichert.  Die verfügbaren OCR Profile lassen sich über die Web-Service Schnittstelle abfragen. Wird eine Datei zur Verarbeitung an den OCR Server übergeben so kann der OCR Profilname mitgegeben und damit die Verarbeitungs-Einstellungen ausgewählt werden.

Alle gängigen Programmierumgebungen  – z.b. .NET, Java, PHP, JavaScript usw. – werden unterstützt. AutoOCR bietet damit im Netzwerk einen system- und anwendungsübergreifenden OCR Service der einfach angebunden und integriert werden kann.

AutoOCR - Web-Service Web-Service OCR Profile konfigurieren

Web-Service Konfiguration:

  • Auswahl – Folder für die Web-Service Jobs
  • Aufbewahrungsdauer der Jobs in Tagen –  verbliebene, nicht bereits gelöschte Jobs werden automatisch nach x Tagen gelöscht
  • Web-Service aktivieren / deaktivieren
  • Web-Service OCR Profile verwalten  (Anlegen / Bearbeiten / Löschen) – Konfiguration der OCR Engine / Parameter, Default festlegen

Mitgeliefert wird eine ASP.NET basierende Beispiel Web-Applikation um die Funktionen des Web-Services testen und demonstrieren zu können. Diese muss über Microsoft Visual Studio aufgerufen und ausgeführt werden. Ist der OCR-Server auf einem anderen Rechner installiert so muss in der “AutoOCRDemo.htm” sowie “Web.config” Datei die AutoOCRBaseUrl Adresse entsprechend angepaßt werden. Die AutoOCRBaseUrl für den lokalen Aufruf lautet: http://localhost:8001/AutoOCRService/

Download – AutoOCR – OCR Server >>>
Download – ASP.NET – Beispiel für Web-Service >>>

Download- Abbyy FineReader 9.x OCR Engine Setup >>>
Demolizenzkey für FineReader OCR Engine anfordern

AutoOCR – Version 1.8.6 – als Service

Beim Setup kann entschieden werden ob AutoOCR als normale Anwendung oder als Dienst installiert wird.

Bei der Verwendung als Dienst sind verschiedene Dinge zu beachten:

Download- Abbyy FineReader 9.x OCR Engine Setup >>>
Download – AutoOCR – OCR Server >>>
Demolizenzkey für FineReader OCR Engine anfordern

Windows Dienst – Zugriff auf Netzwerkressourcen – was ist zu beachten ?

Unsere Anwendungen zur Dokumentenkonvertierung – FileConverter, AutoOCR bzw. FileConverterPro – dienen dazu einen oder mehrere Eingangsordner zu überwachen und für neu hinzukommende Dokumente die Verarbeitung automatisch zu starten. Das kann entweder über lokale Laufwerke aber auch über Netzwerk Ressourcen erfolgen.

Besonders bei der Installation der Anwendungen als Dienst und bei Verwendung von Netzwerk Ressource sind einige Dinge hinsichtlich der richtigen Konfiguration zu beachten:

  • Der Dienst der auf Netzwerk Ressourcen Zugriff haben soll muss unter einem User Account laufen und nicht als System Account.
  • Der User unter dem der Dienst läuft muss über die entsprechenden Rechte (Lesen / Schreiben / Löschen) auf die Netzwerkressource verfügen.
  • Für den Zugriff auf die Netzwerk-Ressourcen (In- / Out- / Error- / Archiv- / Log-Folder) darf kein gemapptes Laufwerk verwendet werden sondern es muss der direkte Netzwerk Share (UNC Pfad) verwendet werden.
  • Die Verarbeitungsoption für das Folder-Monitoring muss von “File System Events” auf “Read File Blocks” umgestellt werden.

Die Netzwerk Verbindung auf einen Laufwerks Buchstaben wird über das “Network Connection Service” verwaltet – Mappt man ein Laufwerk so gibt es einige Dinge die man wissen sollte

  • Option – Reconnect beim Logon – Dient dazu um das Laufwerk Mapping beim nächsten Login automatisch wieder herzustellen.
  • Das Mapping der Laufwerke wird über User realisiert – ist der User nicht eingeloggt so sind die gemappten Laufwerke nicht verfügbar.
  • Über einen Dienst – unabhängig davon ob dieser mit dem gleichen Account wie der aktuell eingeloggte User läuft ist oder nicht – sind gemappte Laufwerke nicht verfügbar – da ein Service nur unter den “User Credentials” läuft, selbst aber nicht eingeloggt ist.

Generell – auch falls die Anwendungen nicht als Service installiert und betrieben wird – empfiehlt es sich Netzwerk Shares (UNC Pfade) an Stelle von gemappten Laufwerken zu verwenden. Ein Netzwerk Share – der direkter Zugang zur Netzwerk Ressource – ist sowohl für den Dienst (unter einem User Account) als auch für normale Anwendungen immer verfügbar und wird vom Remote Server definiert. Das gilt jedoch nicht für den lokalen System Account – dieser hat keinen Zugriff auf Netzwerk Ressourcen und kann daher nicht für einen Dienst verwendet werden der auf Netzwerk Ressourcen Zugriff haben muss.

Office2PDFA & AutoOCR – als Service – was ist zu beachten ?

Office2PDFA und AutoOCR können als normale Anwendung aber auch als Service installiert werden – Was ist bei der Installation als Service zu beachten ?

  • Beide Anwendungen können sowohl auf 32bit als auch auf 64bit Betriebssystemen – als Service bzw. als normale Anwendung installiert werden. Für Office2PDFA muss jedoch je nach Betriebsystem entweder der 32bit bzw. der 64bit eDoc PDF oder PDF/A Druckertreiber installiert werden.
  • Werden die Anwendungen als Service installiert und ist die UAC eingeschalten so kommt beim Start der Konfigurations / Kontrolloberfläche eine Messagebox hoch die bestätigt werden muss.
  • Aufgepaßt werden sollte bei der Auswahl des Speicherorts für die Konfigurationsdateien – diese können  beim Start festgelegt werden – hierfür sollte nicht der Installations-Ordner oder -Unterordner der Anwendung verwendet werden bzw. es sollte kein Ordner ausgewählt werden der von normalen Anwendern nicht beschrieben werden darf.
  • Die Archiv und Errror Folder sowie die Eingangsfolder sollten für den konfigurierten Users bzw. vom System über Schreib und Leserechte verfügen.
  • Der SYSTEM User verfügt nicht über die Rechte um auf Netzwerk Ressourcen zugreifen zu dürfen. Wird ein Service unter dem SYSTEM Account betrieben so müssen aus diesem Grund alle Ordern lokal auf dem Rechner liegen. Sollen Netzwerk Ressourcen verwendet werden so muss der Dienst unter einen User Account  laufen der auch über die entsprechenden Rechte zum Zugriff auf die Netzwerk-Ressourcen verfügt.
  • Wird MS-Outlook zur Konvertierung verwendet so ist jedenfalls auch ein User Account für den Office2PDFA Service erforderlich. Unter MS-Outlook muss einmalig vorher für diesen User ein Profil angelegt und konfiguriert werden.
  • Soll die Abbyy FineReader OCR Engine unter MS-Windows 7 bzw. MS-Server 2008 als Service unter einem User Account mit einem Abbyy Dongle verwendet werden so muss darauf geachtet werden dass bei der Installation des Dongel Treibers nicht automatisch ein “Virtueller CardReader” mit installiert. Wird dieser installiert so kann die Software den Dongle nicht ansprechen und die Lizenz kann nicht verwendet werden. In so einem Fall muss der iKey 1000 Dongel Treiber deinstalliert und mit einem bestimmten Commandline Parameter neu installiert werden.

PDF OCR Tool – PageCount – Ermitteln der zu verarbeitenden Seiten

Eine wichtige Information um die voraussichtlich benötigte OCR Verarbeitungszeit zu ermitteln ist die Anzahl der zu verarbeitenden Seiten.  Denn eine Datei kann eine aber auch hunderte Seiten umfassen. Diese Information ist auch für die erforderliche Abbyy OCR Lizenz notwendig zu wissen um feststellen zu können ob ein vorhandenes oder geplantes Seitenkontingent für die anstehende Verarbeitung ausreichend ist.

Page count for OCR

Der ausgewählter In-Folder wird nach OCR-fähigen Dateiendungen durchsucht. Folgende Endungen werden gesucht: PDF, TIF, TIFF, PNG, JPG, BMP, GIF, PCX, DCX. Da PDF und TIFF multipage fähige Dateiformate sind werden für diese Dateien die Anzahl der Seiten pro Dokument ermittelt. Als Ergebnis wird für jeden Ordner die Anzahl der Seiten sowie die Gesamtzahl aller Seiten für die komplette Ordnerstruktur ausgegeben.

Download – PDF OCR Tool – PageCount >>>

PDF OCR Tool – MoveFiles – Verschiebe die nicht per OCR verarbeitbaren Dateien

Für OCR und zur Vorbereitung der Verarbeitung ganzer Ordnerstrukturen möchte man die durch den OCR Vorgang zu verarbeitenden Dateien von allen Anderen trennen. In weiterer Folge kann dann festgestellt werden  wie viele Seiten per OCR zu verarbeiten sind.

In dem Zusammenhang kann auch ein weiteres Tool zum Einsatz kommen um “normale” PDF Dateien die bereits Text enthalten von den reinen Image PDF Dateien zu trennen um anschließend nur diese zu verarbeiten. Informationen darüber finden Sie hier >>>

Move files

Alle von AutoOCR unterstützten Dateiendungen sind bereits voreingestellt – Dateien mit diesen Endungen verbleiben im ausgewählten In-Folder, während alle anderen Dateien in den Out-Folder unter Berücksichtigung der Ordnerstruktur verschoben werden.

Download – PDF OCR Tool MoveFiles >>>

PDF OCR Tool – PDFFilter – Filtert PDF´s die bereits Textinformation enthalten

Wir sind immer wieder mit der Anforderung konfrontiert einen bestehenden Dokumentenbestand in ein DMS/ECM System zu importieren. Die Dokumente liegen in allen möglichen Formaten in großer Menge im Dateisystem. Neben den üblichen MS-Office Formaten werden immer öfter auch PDF Dokumente abgelegt. Scans werden heute üblicherweise auch bereits als PDF gespeichert. Bei der Übernahme / Import möchte man nun alle vorhandenen PDF Dokumente durchsuchbar machen damit man später möglichst einfach auch über den Inhalt der Dokumente finden kann.

Es wäre nun möglich einfach alle vorhandenen PDF Dokumente durch die OCR Verarbeitung (z.b. AutoOCR)  zu “schicken”, unabhängig davon ob die PDF Datei bereits durchsuchbar ist oder nicht. Das ist an sich technisch möglich da bei der OCR Verarbeitung jede PDF Datei verarbeitet werden kann egal wie diese erstellt wurde – das ist jedoch nicht sinnvoll da z.b. eine per PDF Druckertreiber aus einer Anwendung heraus erzeugte PDF Datei bereits eine durchsuchbare PDF Datei ist und jede zusätzliche OCR Verarbeitung – die Datei nur größer macht sowie Verarbeitungszeit als auch Seiten der OCR Lizenz kosten. Und das kann je nach Verteilung und Anzahl der PDF Dokumente ein wesentlicher Zeit- und Kostenfaktor sein.

Deswegen sollte man jedenfalls nur jene PDF Dokumente einer OCR Verarbeitung unterziehen die diese wirklich auch benötigen. Aus diesem Grund stellen wir das kostenlose Tool – PDFFilter zur Verfügung mit dem gezielt diese Dokumente gefunden und herausgefiltert werden können.

Funktionen:

  • Start-Ordner – alle darunter liegenden Unterordner werden verarbeitet – Ziel ist es dass nur jene PDF überbleiben die einer OCR Verarbeitung unterzogen werden sollen.
  • Ziel-Ordner – in diesen werden die PDF´s verschoben die keiner OCR Verarbeitung bedürfen – Ordnerstruktur und Dateiname bleiben erhalten.
  • Ordner für “Geschützte PDF” – PDF´s mit Passwortschutz zum Öffnen können nicht OCR verarbeitet werden – PDF werden in diesen Ordner verschoben.
  • Selektion “Verschieben” über – “PDF enthält bereits einen Text”, Selektion aus einer Liste “Anwendung mit der das PDF erstellt wurde” oder “Erzeugt mit” Info – diese beiden Infos sind PDF Metadaten die aus den vorhandenen PDF´s ausgelesen und als Liste zur Selektion angeboten werden. Dient dazu gezielt PDF´s herauszufiltern die nicht OCR verarbeitet werden müssen.
  • Bestehende Datei bereits vorhanden – Überschreiben, Überspringen, Zähler anhängen.

PDFFilter_search for text PDF PDFFilter_select by applicaiton or created with info_1 PDFFilter_select by applicaiton or created with info_2

Download – PDF OCR Tool – PDFFilter >>>

Abbyy Lizenzupdate – how to do

Falls Sie die Abbyy Lizenz für eines unserere OCR Produkte auf einem USB Doungle haben und Sie möchten die Lizenz erweitern um z.B. ein größeres Seitenkontingent pro Monat nutzen zu können, kann dies per Software und Online Verbindung recht einfach und kurzfristig erfolgen. Sie bekommen von uns dafür eine neue Lizenznummer zugeschickt welche Sie anschließend wie nachfolgend beschrieben aktivieren können.

Verwenden sie zum Update und Einspielen der Lizenz folgendes Tool

Abbyy FineReader Dongle Updater Tool

Gehen Sie wie folgt vor:

  1. Entpacken Sie das Tool in ein separates Verzeichnis.
  2. Stecken Sie den Dongle mit der jeweiligen Lizenz an den Rechner an.
  3. Starten Sie von der Kommandozeile DongleUpdate.FREngine.exe mit dem Parameter /UpdateLicense z.B.: C:\Temp\DongleUpdate.FREngine.exe /UpdateLicense
  4. Wählen Sie die jeweilige Lizenz aus, klicken Sie den <Update License> Button und folgen Sie dem Wizard.

Für Schritt 4. Benötigen Sie eine Internetverbindung.