Kategorie: AutoOCR

AutoOCR – Barcode Erkennung über Scripting

Über die Scripting Funktion von AutoOCR ist es jetzt auch möglich zusätzlich zur OCR Verarbeitung auch eine Barcode Erkennung der verarbeiteten Dokumente durchzuführen. Die erkannten Barcodes können auch in die Felder der PDF Dokumenteninformation geschrieben werden um die Daten direkt weiterzugeben und später wieder auszulesen.

Funktionen AutoOCR Barcode Scripting Add-On:

  • 1D – Barcoderkennung folgender Typen: INDUSTRIAL2OF5, INVERTED2OF5, INTERLEAVED2OF5, IATA2OF5,  MATRIX2OF5, CODE39, CODABAR, BDCMATRIX, DATALOGIC2OF5, CODE128, EAN128, CODE93, EAN13, UPCA, EAN8, UPCE, ADD5, ADD2
  • Barcode Erkennung unabhängig von der Orientierung auf der Seite
  • Festlegung auf welchen Seiten die Erkennung erfolgen soll – Einzelseite, Von-bis, Liste, sowie Kombination dieser Angaben.
  • Schreiben z.b. von Barcode Type, Barcode Wert, Seitenummer in die PDF Dokumenteninfo Felder  – Title , Subject, Author, Keywords
  • Weitere verfügbare Barcode Informationen: Koordinaten – Links/Oben, Breite, Höhe
  • Verfügbar als AutoOCR Scripting Funktion inkl C# Beispielscript

AutoOCR_Barcode_Erkennung

AutoOCR – REST Schnittstelle – Jobs abfragen & löschen erweitert

Die REST Schnittstelle zur Job Abfrage wurde um 3 Felder mit dem ISO Datumsformat erweitert.

EnumJobs Parameters:

the url template would be:
/EnumJobs?pageSize={pageSize}&label={label}&userName={userName}&status={status}&createdFromTo={createdFromTo}&convertedFromTo={convertedFromTo}&sortColumns={sortColumns}

  • pageSize=the size of the page(because of paging)
  • label=the label filter, can contain wildcards *
  • userName=the username filter, can contain wildcards
  • status=the status of the jobs which should be returned, or 100 for all status
  • createdFromTo=“yyyy/MM/dd HH:mm:ss-yyyy/MM/dd HH:mm:ss“
  • convertedFromTo=“yyyy/MM/dd HH:mm:ss-yyyy/MM/dd HH:mm:ss“
  • sortColumns=“ColumName1 ASC,ColumnName DESC,…“

The createdFromTo, convertedFromTo and sortColumns can be empty strings. The available sort columns are the following:

  • DateCreated
  • DateConverted
  • StatusCode
  • UserName
  • JobLabel

Now there are some new fields in the JSON JobResult structure:

  • CreationDateISO
  • FinishedDateISO
  • ConversionStartedDateISO

REST Funktion – Jobs löschen

Es gibt eine Funktion um alle Web-Service Jobs aus der Datenbank zu löschen /DeleteAllJobs. Damit werden alle Datenbank Einträger und auch alle am AutoOCR Server hinterlegten Ergebnisdateien auf einmal gelöscht. Neu hinzugekommen ist jetzt auch die Funktion um Jobs älter als X Tage zu löschen /DeleteJobs(int days)

  • https://autoocr.may.co.at:8001/AutoOCRService/DeleteAllJobs
  • https://autoocr.may.co.at:8001/AutoOCRService/DeleteJobs?days=1

AutoOCR Version 1.10.9 – C# / VB.NET Scripting

Mit der Version 1.10.9 unterstützt AutoOCR jetzt Scripting. Wird das AutoOCR Userinterface mit der Commandline Option /ShowAction gestartet so kann für jeden konfigurierten Ordner über den Tab  „Aktion“ ein Script angelegt und aktiviert werden. Als Programmiersprachen werden C# bzw. VB.NET unterstützt. Die Skript Verarbeitung muss über eine Checkbox Option „Aktiv“ gesetzt werden sonst wird das „Custom Interface“ nicht erzeugt und der Code wird nicht ausgeführt.

Script_Modul_Referenzen  Script_Code_Konfiguration

Standard Script Code:

AutoOCR_scripting

AutoOCR Script Funktionen:

Bei der Implementierung einer Aktion muss das OCR.IAction Interface verwendet werden. Dieses Interface stellt über IDisposable aus auch das Standard .NET Interface zur Verfügung.

1.) PreAction(string inputFile, string outputFile)

Diese Funktion wird aufgerufen bevor die OCR Verarbeitung/Konvertierung startet. Der inputFile Parameter ist der voll qualifizierte Pfad des Ursprungsdokuments das verarbeitet  werden soll. Der outputFile Parameter ist der voll qualifizierte Pfad des Zieldokuments. Zu beachten ist dass beim Aufruf der Funktion das Zieldokument noch nicht existiert. Mit dieser Funktion können beliebige andere Komponenten initialisiert werden die im Skript Code verwendet werden sollen. Es ist empfohlen die inputFile und outputFile Parameter in „member variablen“ abzuspeichern um zu einem späteren Zeitpunkt z.b. für die „PostAction“ wieder Zugriff darauf zu haben.
 
2.) PostAction(string error)

Diese Funktion wird aufgerufen nachdem die OCR Verarbeitung abgeschlossen ist und bevor die konfigurierten Aktionen ausgeführt werden. War die Verarbeitung erfolgreich so ist der Error Parameter entweder  „null“ oder „leer“ – in dem Fall ist auch bereits die Ausgabedatei (outputFile) vorhanden.

3.) Dispose()

Diese Funktion wird direkt nach der PostAction Funktion aufgerufen. Alle Funktionen zur Bereinigung (cleanup) sollten hier  aufgerufen werden.

Die Verarbeitung in AutoOCR erfolgt über folgende Schritte:

  • „Custom interface“ wird angelegt
  • PreAction“ wird aufgerufen
  • Datei wird verarbeitet
  • PostAction“ wird aufgerufen
  • Dispose“ Aktion wird aufgerufen

Zu beachten ist:

  • Der Code muss das OCR.IAction Interface verwenden
  • Der Class Name muss Action sein

Bei der Aktivierung der Scripting Funktion wird automatisch ein Standard C# Script Code eingefügt der jedoch nichts ausführt und bewirkt. Werden zusätzlichen  als die standardmäßig vorhandenen Referenzen benötigt so sind diese in der Modul / DLL Referenzliste hinzuzufügen.

Folgende Modul / DLL Referenzen sind standardmäßig vorhanden:

  • System.dll
  • System.Data.dll
  • System.Windows.Forms.dll
  • NETCommon.dll
  • OCR.dll

Eigene Funktionen können dem Script hinzugefügt und in den PreAction, PostAction und Dispose Methoden aufgerufen werden.

Folgendes Beispiel Script sendet nach der OCR Verarbeitung ein E-Mail mit dem Ergebnis Dokument  als Anhang an eine konfigurierte E-Mail Adresse.

AutoOCR_Script_e_mail_versand

Fehlersuche / Test:

Um den Script Code zu debuggen muss die AutoOCR User Interface Anwendung mit dem Commandline Parameter /ShowScriptErrors aufgerufen werden. Während der Entwicklung und Test der Skripts sollte die Anwendung mit folgenden Parametern aufgerufen werden:  AutoOCR.exe /ShowAction /ShowScriptErrors

Hinweise / Restriktionen:

Die Implementierung erzeugt und führt die Script Funktionen im gleichen Thread aus wie die OCR Verarbeitung. Aus diesem Grund sollte man keine längeren, zeitintensiven Script-Funktionen verwenden, da solche Verarbeitungen damit die AutoOCR Gesamtperformance beeinflussen und verlangsamen. Der Aufruf erfolgt synchron, darum sollte man Scripts keine Masken anzeigen oder modale Funktionen verwenden.

Zu beachten ist dass üblicherweise AutoOCR als Windows-Service installiert wird. Ein Service läuft unter einem bestimmten Account (Standardmäßig unter dem lokalen System Account) und dieser hat andere Rechte als z.b. der aktuell angemeldete Benutzer. Läuft z.b. der AutoOCR Service unter dem lokalen System Account so wird auch der konfigurierte Script unter diesem Account ausgeführt und unterliegt damit den gleichen Restriktionen. Soll z.b. über den Script auf eine Netzwerk Ressource (Share) zugegriffen werden so muss AutoOCR unter einem User Account laufen der über die entsprechenden Rechte verfügt.  Siehe  Windows Dienst – Zugriff auf Netzwerkressourcen – was ist zu beachten ?

Der Commandline Paramter /ShowScriptErrors sollte nur verwendet werden um die Scripts zu testen und zu debuggen – nicht jedoch im Echtbetrieb. Weiters sollte AutoOCR für den Test als normale Anwendung und nicht als Service installiert werden, ansonsten kann  die Verarbeitung blockiert werden. Im Fehlerfall wird eine Message Box angezeigt, läuft die Anwendung als Service so wird diese nicht am Userinterface des angemeldeten Benutzers sondern am Desktop des Accounts unter dem der Service läuft angezeigt.

Anwendungsbereiche:

  • Nachgelagerte Verarbeitungsschritte automatisch anstoßen – z.b.: Versand per E-Mail
  • Barcode  Erkennung

Mit der Version 1.10.9 steht C#/VB.NET Scripting mit der Folder Verarbeitung und mit der nächsten AutoOCR Version wird Scripting auch über die OCR-Profile der Web-Service Schnittstelle zur Verfügung stehen.

Download – AutoOCR – OCR Server inkl. iOCR Engine (ca. 150MB) >>>

Für die Abbyy OCR Engine Version 10 stehen Demolizenzen für 30 Tage bzw. 500 Seiten zur Verfügung – diese können Sie gerne bei uns anfordern

Download- Abbyy FineReader 10.x Rel 4 OCR Engine Setup (ca. 460MB) >>>
Demolizenzkey für FineReader OCR Engine anfordern

 

AutoOCR – Abbyy – PDF Image Qualität bei Verarbeitung von TIFF & JPEG Farbscans mit niedriger Auflösung

Mit der aktuellen Abbyy Version 10 gibt es bei der Verarbeitung von Farbscans ein Problem das zu visuell nicht optimalen PDF Ergebnissen führt.  Verwendet man TIFF oder JPEG als Format für die OCR Verarbeitung von Farbscans mit z.b. 100dpi um daraus ein durchsuchbares PDF zu erzeugen so ist zwar das OCR Ergebnis gut, jedoch ist das im PDF eingebettete Bild von wesentlich schlechter Qualität als das Ausgangsdokument. Wir erwarten hier mit der nächsten Abbyy Version 11 eine Verbesserung.

Man erhält ein visuell besseres Ergebnis falls

  • man statt TIFF und JPEG ein PDF – Image verwendet
  • man die PDF Export Einstellung von „max. Qualität“ auf „max. Geschwindigkeit“ einstellt
  • mit höherer Auflösung scannt – 300dpi statt 100dpi.

Ebenso sollte man bis zur Verfügbarkeit der Abbyy Version 11 – statt der JPEG2000 die normale JPEG Komprimierung verwenden.

AutoOCR – neue Version 1.10.6

Bei der Version 1.10.6 wurde die bei der Textausgabe der iOCR Engine um die Option erweitert ein Seitentrennzeichen (#12- FF) nach jeder Seite einzufügen. Damit ist es möglich den Text aus der Ausgabedatei der gescannten Seite eindeutig zuzuordnen. Der erkannte Text in der Textdatei kann sich selbst z.b. über mehrere Seiten erstrecken obwohl der Scan nur eine Seite beinhaltet  z.b. bei  Seitenformaten >A3 oder bei Text in Spalten. Bestimmte DMS und Archivprogramme benötigen die Textinformation seitenweise getrennt um im Index die darzustellenden Seite 1:1 zuordnen zu können. Die Codierung der TXT Datei ist UTF-8 ohne BOM

iOCR Option - Textausgabe - Seitentrennzeichen einfügen

Download – AutoOCR – OCR Server inkl. iOCR Engine (ca. 150MB) >>>

AutoOCR – neue Version 1.10.5

Die Version 1.10.5 wurde speziell im Bereich der iOCR Engine verbessert und aktualisiert

  • iOCR Engine wurde auf den neuesten Stand gebracht
  • Kompatibilität der erzeugten PDF´s für die Alfresco SWF-Voransicht wurde optimiert
  • Bildverarbeitungs-Funktionen wurden zur Verbesserung der Erkennungsrate für die iOCR Engine implementiert.

Folgende Bildverarbeitungs-Funktionen stehen zur Verfügung:

  • AutoRotate – dabei wird die Seitenausrichtung vor der OCR Verarbeitung korrigiert und die Seite richtig gedreht
  • Automatisch Geradeausrichten – dabei wird eine z.b. durch schiefes Einziehen im Scanner leicht verdrehte Seite erkannt und gerade ausgerichtet.
  • Rand beschneiden – dabei werden z.b. schwarze Ränder erkannt und beschnitten – z.b. es wurde eine kleinere Seite gescannt.
  • Muster entfernen – dabei werden Verunreinigungen einer bestimmten Größe erkannt und entfernt.
  • Lochungen entfernen – dabei werden schwarz gefüllte Kreise an den Rändern gesucht und entfernt
  • Linien entfernen – damit können horizontale und vertikale Linien z.b. von Formularen entfernt werden, wodurch sich die OCR Erkennungsrate verbessert.

Bitte beachten Sie dass diese Bild-Verarbeitungsfuktionen zusätzliche teilweise rechenintensive Verarbeitungsschritte darstellen welche die Geschwindigkeit der OCR Verarbeitung verlangsamen.

iOCR_allgemeine_Einstellungen iOCR_Bildverarbeitungsoptionen

Download – AutoOCR – OCR Server inkl. iOCR Engine (ca. 150MB) >>>
Download – AutoOCR – Web-Service Beispiel-Client  inkl. C# Source >>>

AutoOCR – neue Version 1.10.4

Mit der AutoOCR Version 1.10.4 wurden Erweiterungen im Bereich der Job Funktionen für die Web-Service Schnittstelle implementiert.

Neue Job-Funktionen:

  • Alle Jobs am Server löschen
  • Filter für Datum – Erzeugt / Konvertiert – von / bis
  • Filter für Username und Label mit Wildcard Suche (*)
  • Funktion zum Blättern der Seiten in der Ergebnisliste mit Angabe der Treffer pro Seite – die Job Liste kann seitenorientiert abgerufen und geblättert werden.
  • Sortierung der abgerufenen Liste nach – Erzeugungsdatum, Konvertierungsdatum, Status, Username, Job-Label – auf bzw. absteigend.

Das über ein getrenntes Setup installierbare .NET Beispielprogramm –  zeigt alle diese neuen Funktionen bzw. ermöglicht deren Test.

AutoOCR_jobfiltering Signatur der neuen Job Funktionen - AutoOCR 1.10.4

Signatur der neuen Job Funktionen – AutoOCR 1.10.4

Download – AutoOCR – OCR Server inkl. iOCR Engine (ca. 150MB) >>>
Download – AutoOCR – Web-Service Beispiel-Client  inkl. C# Source >>>

Für die Abbyy OCR Engine Version 10 stehen Demolizenzen für 30 Tage bzw. 500 Seiten zur Verfügung – diese können Sie gerne bei uns anfordern

Download- Abbyy FineReader 10.x Rel 4 OCR Engine Setup (ca. 460MB) >>>
Demolizenzkey für FineReader OCR Engine anfordern

ifresco AutoOCR – Version 1.14

  • FEATURE: Kombatibilität für Alfresco 4.2.bCE mit Java7
  • FEATURE: „Über AutoOCR“ Reiter in der Admin Konsole mit Angaben zur installierten Version
  • FIX: Replace target Dokument switch bei gleichem Mimetype wie das orginal wurde nicht ausgewertet.

Der ifresco AutoOCR Transformer – ist somit für folgende Alfresco Versionen als installierbares AMP verfügbar:

  • Alfresco CE 4.0d, 4.2b
  • Alfresco EE 4.0.0, 4.0.1, 4.0.2, 4.1.1

Abbyy FineReader Seitenlizenzen – wie werden diese berechnet

Die meisten Anwender unserer OCR Produkte verwenden die Abbyy OCR Engine zusammen mit einer seitenbasierende Lizenz bei der ein bestimmtes Kontingent an Seiten pro Monat zur Verfügung steht.

Abbyy berechnte dabei die Seiten nach folgendem Schema:

Berechnung der Fläche einer verarbeiteten Seite:

Seitenbreite (in Pixel)                                      Seitenhöhe (in Pixel)

—————————–  *  2,54 (cm/inch) * —————————– * 2,54 (cm/inch)

Auflösung (in dpi)                                             Auflösung  (in dpi)

Division der Seitenfläche durch die Fläche einer A4 Seite

  • 21 cm * 29,7 cm = 623,7 cm*cm

Gezählte Seitenzahl ergibt sich:

  • = 1, wenn Seite kleiner als A4
  • = ganzzahliger Anteil vom Ergebnis aus der Division, wenn Seite größer als A4 ist

Bemerkung: Seitengröße (in Pixel) und Auflösung (in dpi) werden normalerweise von der Scannersoftware in den Bildeigenschaften im richtigen Verhältnis hinterlegt.  Bei inkorrekter Funktion der Scannersoftware kann es aber zu „problematischen“ Werten kommen, die dann eine Berechnung eines Vielfachen der eigentlichen Seitenzahl zur Folge haben.

Beispiel: Gescannte A4 Seite normal: ca. 2500 Pixel * 3500 Pixel bei 300 dpi. Falls durch eine Fehlfunktion die Auflösung auf 100 dpi gesetzt wurde, aber die Pixelgröße erhalten bleibt, wird die neunfache (3*3) Seitengröße gezählt.

Neue Features ifresco Transformer für Alfresco – mit AutoOCR Version 1.10.3

Wegen der neuen AutoOCR Version 1.10.3 sind neue features für den ifresco AutoOCR Transformer verfügbar:

  • iOCR – neue standard OCR Engine, zusätzlich zu Abbyy
  • Intelligente Verarbeitung von PDF Dokumenten
  • Alfresco Integration – OCR Server bereit zum testen, ohne Installation – Sie können unseren, vom Internet zugänlichen AutoOCR Test Server verwenden.
  • New Step by Step installation and setup documentation.

iOCR – zusätzliche OCR Engine verfügbar

Beginnend mit der AutoOCR Version 1.10.3 installiert das Setup iOCR als standard OCR Engine, welche alleine oder zusätzlich zur Abbyy OCR Engine verwendet werden kann. iOCR hat keine Seiten Lizenz Limits und kann als Input PDF, TIFF oder JPEG verarbeiten und durchsuchbare PDF’s und TXT Dateien erstellen.

Unterschiede zwischen iOCR und Abbyy

  • iOCR unterstützt nicht so viele Sprachen wie Abbyy
  • keine gemischte Spracherkennung – es kann nur eine Hauptsprache gewählt werden
  • nicht das gleiche Level an Genauigkeit und Erkennungsqualität wie Abbyy
  • keine Bild-Vorbearbeitungs Funktionen
  • keine Seitenausrichtungserkennung (Auto-Drehen)
  • Nicht so viele konfigurierbare Funktionen und Features und In-/Output Formate.

Aber iOCR ist eine gute Lösung für kostengünstige und umfangreiche OCR Erkennung z.B. um Text-Informationen von PDF’s und Bildern zu extrahieren, um einen Volltext Index aufzubauen (z.B. Alfresco Transformer > TXT) und durchsuchbare PDF’s von Scans mit guter Qualität zu erstellen.

Am besten ist es Tests mit eigenen Dokumenten durchzuführen, um zu sehen welche OCR Engine am besten Ihren Bedürfnissen entspricht. Beide Engines Abbyy und iOCR können parallel installiert und verwendet werden – Sie müssen nur verschiedene OCR Profile für die unterschiedlichen Einstellungen und OCR Engines erstellen. Auch beide OCR Engines können auf unserem zur Verwendung fertigen AutoOCR Test Server getestet werden (autoocr.may.co.at)

Intelligente PDF Verarbeitung:

Ein PDF Dokument kann nur Bilder von einem Scanner enthalten oder erstellt werden z.B. von einem Druckertreiber oder durch direkten PDF Export. Ein Bild-PDF enthält keinen Text und muss OCR verarbeitet werden. Die anderen „normalen“ PDF’s enthalten Text und müssen nicht mehr OCR verarbeitet werden. Der Alfresco Transformer erkennt das und entscheidet ob ein PDF verarbeitet werden muss oder nicht. OCR Verarbeitung kostet Zeit und Ressourcen und deshalb haben wir, beginnend mit der AutoOCR Version 1.10.3, „intellegente PDF-OCR Verarbeitung“ eingebaut. Wenn diese Option ausgewählt ist wird jedes PDF, welches zum AutoOCR Server geschickt wird überprüft und wenn es bereits Text enthält, nicht verarbeitet. In diesem Fall wird das PDF oder der extrahierte Text ohne Verarbeitung zurück gesendet. Um dieses Feature zu aktivieren muss der Server für „Intelligente OCR Verarbeitung von PDF Dateien“ konfiguriert sein.

PDF - intelligent OCR processing - Abbyy PDF - intelligent OCR processing - iOCR

AutoOCR Test server – fertig zur Verwendung 

Mit der Installation von 2 AMP’s kann der AutoOCR Server mit Alfresco integriert werden. Die Integration arbeitet wie der standard Alfresco Transformer oder kann auch durch Scripting oder Java verwendet werden. Die Kommunikation zwischen AutoOCR und Alfresco findet durch HTTP(S) – REST statt. Um das testen von AutoOCR und der Alfresco Integration noch einfacher zu machen, können Sie unseren AutoOCR Test Server verwenden (autoocr.may.co.at), welcher über das Internet erreichbar ist und beide OCR Engines (Abbyy und iOCR) installiert hat.

Step by Step – Installation und Setup Dokumentation

Mit diesem Dokument wird jeder Schritt für die Installation der Abbyy Engine, von AutoOCR, der Lizensierung, der Verwendung unseres Test Servers und der Integration mit Alfresco mit Screenshots genau erklärt.

Download – Installation und Setup Dokumentation – ifresco AutoOCR transformer for Alfresco >>>

Test und Demo Version ist verfügbar – bitte kontaktieren Sie uns >>>

Webshop