AutoOCR – neue Version 1.10.6

Bei der Version 1.10.6 wurde die bei der Textausgabe der iOCR Engine um die Option erweitert ein Seitentrennzeichen (#12- FF) nach jeder Seite einzufügen. Damit ist es möglich den Text aus der Ausgabedatei der gescannten Seite eindeutig zuzuordnen. Der erkannte Text in der Textdatei kann sich selbst z.b. über mehrere Seiten erstrecken obwohl der Scan nur eine Seite beinhaltet  z.b. bei  Seitenformaten >A3 oder bei Text in Spalten. Bestimmte DMS und Archivprogramme benötigen die Textinformation seitenweise getrennt um im Index die darzustellenden Seite 1:1 zuordnen zu können. Die Codierung der TXT Datei ist UTF-8 ohne BOM

iOCR Option - Textausgabe - Seitentrennzeichen einfügen

Download – AutoOCR – OCR Server inkl. iOCR Engine (ca. 150MB) >>>

AutoOCR – neue Version 1.10.5

Die Version 1.10.5 wurde speziell im Bereich der iOCR Engine verbessert und aktualisiert

  • iOCR Engine wurde auf den neuesten Stand gebracht
  • Kompatibilität der erzeugten PDF´s für die Alfresco SWF-Voransicht wurde optimiert
  • Bildverarbeitungs-Funktionen wurden zur Verbesserung der Erkennungsrate für die iOCR Engine implementiert.

Folgende Bildverarbeitungs-Funktionen stehen zur Verfügung:

  • AutoRotate – dabei wird die Seitenausrichtung vor der OCR Verarbeitung korrigiert und die Seite richtig gedreht
  • Automatisch Geradeausrichten – dabei wird eine z.b. durch schiefes Einziehen im Scanner leicht verdrehte Seite erkannt und gerade ausgerichtet.
  • Rand beschneiden – dabei werden z.b. schwarze Ränder erkannt und beschnitten – z.b. es wurde eine kleinere Seite gescannt.
  • Muster entfernen – dabei werden Verunreinigungen einer bestimmten Größe erkannt und entfernt.
  • Lochungen entfernen – dabei werden schwarz gefüllte Kreise an den Rändern gesucht und entfernt
  • Linien entfernen – damit können horizontale und vertikale Linien z.b. von Formularen entfernt werden, wodurch sich die OCR Erkennungsrate verbessert.

Bitte beachten Sie dass diese Bild-Verarbeitungsfuktionen zusätzliche teilweise rechenintensive Verarbeitungsschritte darstellen welche die Geschwindigkeit der OCR Verarbeitung verlangsamen.

iOCR_allgemeine_Einstellungen iOCR_Bildverarbeitungsoptionen

Download – AutoOCR – OCR Server inkl. iOCR Engine (ca. 150MB) >>>
Download – AutoOCR – Web-Service Beispiel-Client  inkl. C# Source >>>

AutoOCR 1.10.3 – iOCR – neue unlimitierte Standard OCR Engine enthalten

iOCR – unlimitierte Standard OCR Engine für AutoOCR

Eine neue unlimitierte iOCR Standard OCR Engine wurde implementiert. Diese zeichnet sich durch eine hohe Verarbeitungsgeschwindigkeit aus, kann als Input neben den üblichen Imagedateien auch PDF´s verarbeiten um daraus durchsuchbare PDF´s zu erzeugen. Diese Engine ist speziell für Anwendungen ideal bei welchen Volltextindizes für große Dokumentenmengen in kurzer Zeit aufgebaut werden müssen. z.b. bei der Integration mit Alfresco über den ifresco TXT Transformer.

Highlights iOCR für AutoOCR:

  • Hohe Performance durch 64bit und parallele Verarbeitung mehrerer Dokumente (CPU / Core / Speicherabhänging)
  • keine Limitierung hinsichtlich der zu verarbeitenden Seiten, bzw. keine CPU / Core Beschränkungen
  • 37 unterstützte Sprachen: Arabisch, Bulgarisch, Catalan, Tschechisch, Chinesisch (vereinfacht), Chinesisch (traditionell), Kroatisch, Dänisch, Holländisch, Deutsch, Griechisch, Englisch, Finnisch, Französisch, Hebräisch, Hindi, Ungarisch, Indonesisch, Italienisch, Japanisch, Koreanisch, Lettisch, Litauisch, Norwegisch, Polnisch, Portugiesisch, Rumänisch, Russisch, Serbisch (Latein), Slowakisch, Slowenisch, Schwedisch, Tagalog (Pilippinisch), Thai, Türkisch, Ukrainisch, Vietnamesisch
  • PDF, TIFF, JPEG, PNG – als Input / PDF-OCR sowie TXT als Output
  • JBIG-2 erzeugt noch kleinere Schwarz & Weiss PDF Dokumente als durch die TIFF Gr. 4 Komprimierung
  • zuschaltbare intelligente PDF Verarbeitung – es werden nur PDF-Image Dokumente einer OCR Verarbeitung unterzogen, PDF´s die bereits Text enthalten werden nicht nochmals verarbeitet – das erhöht den Druchsatz und steigert die Qualität.

Bemerkung: für uns ist weiterhin die Abbyy FineReader Engine die beste verfügbare OCR Engine – mit den meisten Funktionen und Features sowie mit der besten Erkennungsrate. Es gibt jedoch Anwendungsbereiche und Gründe eine alternative OCR Engine einzusetzen. Das ist auch ein wichtiges Feature von AutoOCR – es wird nicht nur eine einzige OCR Engine unterstützt,  sondern je nach Anforderung können auch mehrere parallel aktiv sein bzw. können OCR Engines nachgerüstet werden.

Neuerungen – AutoOCR Version 1.10.3:

  • iOCR als Standard OCR Engine bereits im Lieferumfang / Setup enthalten
  • „Intelligente“ OCR Verarbeitung von PDF Dokumenten – PDF Dokumente werden vor der OCR Verarbeitung überprüft ob diese bereits Text enthält – falls ja so wird das PDF nicht per OCR verarbeitet sondern das PDF bzw. der daraus extrahierte Text wird zurückgeliefert. Speziell für die Alfresco Transformer Integration ist dies erforderlich da von Seiten Alfresco bei der PDF Transformation PDF>PDF bzw. PDF>TXT nicht zwischen „normalen“ PDF und Image PDF unterschieden werden kann und daher jedes PDF durch den Transformer geschickt wird. Durch diese Option wird unnötige OCR Verarbeitung und damit werden Verarbeitungszeit und Abbyy OCR-Seiten-Lizenzen gespart.
  • Web-Service – Job Liste – Neue Funktion – alle Jobs löschen
  • Web-Service – Job Liste – Datum und Uhrzeit der Job Erstellung wird mit angezeigt
  • Web-Service – parallele Verarbeitung  beim Upload bzw. Job Handling wurde optimiert und verbessert.
  • Web-Service .NET Beispiel Client – wurde erweitert – Mehrfach Upload von Dateien, Parallel Upload, Anzeiger der aktuell laufenden Parallel Uploads, Unterstützung der Funktionen im Client für Parallelverarbeitung (Upload, Job Handling…)

1_AutoOCR_neue_iOCR_engine 2_AutoOCR_iOCR_Sprachauswahl_1 3_AutoOCR_iOCR_Sprachauswahl_2 4_AutoOCR_iOCR_color_compression 5_AutoOCR_iOCR_b&w_compression 7_AutoOCR_Abbyy_intelligent_PDF_processing

Download – AutoOCR – OCR Server inkl. iOCR Engine (ca. 150MB) >>>
Download – AutoOCR – Web-Service Beispiel-Client  inkl. C# Source >>>

Download – Schritt für Schritt Installation AutoOCR & ifresco Transformer >>>

Für die Abbyy OCR Engine Version 10 stehen Demolizenzen für 30 Tage bzw. 500 Seiten zur Verfügung – diese können Sie gerne bei uns anfordern

Download- Abbyy FineReader 10.x Rel 4 OCR Engine Setup (ca. 460MB) >>>

Demolizenzkey für FineReader OCR Engine anfordern

AutoOCR – Alfresco Transformer Modul / JavaScript / Java Client

Alfresco ist eines der leistungsfähigsten und innovativsten DMS/ECM Systeme. Dokumente werden über  Metadaten sowie Volltext verwaltet und können sehr schnell wiedergefunden werden. AutoOCR basiert auf Abbyy der wohl Besten verfügbaren OCR Engine. Wir haben diese beiden Produkte jetzt integriert und stellen damit die AutoOCR Funktionen in Alfresco zur Verfügung.

AutoOCR als Alfresco Transformer:

Die OCR Funktion wird dabei als Aktion direkt auf Ordner gebunden. Wird z.b. ein gescanntes Dokument in einen solchen Alfresco Ordner abgelegt so wird die Verarbeitung automatisch angestoßen und das Dokument an den AutoOCR Service übergeben. Das Ergebnis ist eine durchsuchbare PDF Datei die unmittelbar danach über den Alfresco Volltextindex gesucht und gefunden werden kann.

AutoOCR JavaScript Binding für Alfresco:

Das JavaScript API ermöglicht den direkten Zugriff auf den AutoOCR Service von Alfresco Scripts aus. In Repository JavaScripts (WebScript-Controller Scripts, Scripted Actions) können alle Funktionen des AutoOCR APIs aufgerufen werden. Dieses API ist vollständig unabhängig von der Einbindung der AutoOCR-Services als Alfresco-Transformer.

Highlights / Funktionen:

  • Direkte AutoOCR Einbindung als Alfresco Transformer über REST Web-Service Schnittstelle.
  • Getrennter AutoOCR Service / Server welcher den Alfresco Server nicht belastet
  • Basierend auf ABBYY – der führenden OCR Engine
  • Einfache Konfiguration über Auswahl von OCR Profilen  – alle verfügbaren Abbyy OCR Engine Einstellungen werden damit zusammenfassen.
  • Neben PDF können parallel dazu weitere Ausgabeformate erzeugt werden (TXT, RTF, DOC, etc.)
  • Dynamische Transformer Konfiguration zur Laufzeit über die Alfresco Share-Admin Oberfläche.
  • JavaScript-Client für den AutoOCR Service, nutzbar in Alfresco Repository-Scripts (WebScripts, Actions, usw.)
  • Java-Client für den AutoOCR Service, zur Verwendung in Java Code.  Der Java Client selbst hat keine Abhängigkeiten gegen Alfresco.

Voraussetzung:

  • Alfresco 4.x – dynamische Konfiguration über Share Userinterface
  • Alfresco 3.x – manuelle Konfiguration ohne Share UI
  • AutoOCR ab Version 1.9.8 unter MS-Windows

1_AutoOCR - alfresco transformer - status 2_AutoOCR - alfresco transformer connection configuration 3_AutoOCR - alfresco transformer configuration 4_AutoOCR - alfresco transformer job status

iOCR.NET – Testanwendung mit C# Source Code verfügbar

Für iOCR.NET gibt es jetzt auch ein Demo Setup das sowohl eine fertig kompilierte Beispielanwendung als auch den C# Source Code installiert. Damit kann jeder für 30 Tage die Funktionen und Resultate der iOCR.NET Verarbeitung ohne Einschränkungen mit eigenen Dokumenten austesten. Softwareentwickler können an Hand des mitgelieferten C# Beispielprogramms die Integration der OCR Engine in eigene Anwendungen austesten.

iOCR.NET_1 iOCR.NET_2

iOCR.NET_3 iOCR.NET_4

iOCR.NET_5 iOCR.NET_6

Download – iOCR.NET – OCR Engine für .NET >>>

iOCR.NET – OCR Engine ohne Limits

Wir haben auf Basis der OpenSource OCR Engie von CuneiForm eine .NET Implemetierung realisiert und zusammen mit unseren PDF Routinen eine .NET Komponente für die OCR Verarbeitung zur Erzeugung durchsuchbarer PDF und PDF/A Dokumente entwickelt. Damit sind wir in der Lage alle unser Softwareprodukte standardmäßig mit OCR Funktionen auszustatten. iOCR.NET ist aber auch für andere Softwarehersteller und Integratoren ideal geeignet um deren Produkte um OCR Funktionen ohne Seiten oder Mengenlimitationen zu erweitern und das zu einer preislich sehr günstigen Einmallizenz inkl. Wartung.

Highlights:

  • .NET OCR Komponente inkl. C# Bespielprogramm
  • keine Seiten oder Mengenbeschränkungen hinsichtlich der zu verarbeitenden Images
  • sehr performate und schnelle Verarbeitung – gut geeignet für interaktive Bereichs OCR Erkennung sowie direkten PDF-OCR Export
  • preislich günstige Einmallizenz für die Integration in eigene Anwendungen
  • Verarbeitet – Farb / Graustufen und SchwarzWeiss Single- sowie Multipage Images – TIFF, JPEG, PNG, BMP
  • Ausgabe: durchsuchbare Single- bzw. Multipage PDF, PDF/A – mit Image über Text, TXT, XML
  • PDF Image Komprimierung : TIFF Gr. 4, JPEG,TIFF-LZW
  • PDF Image – Auflösung: wie Original, 96, 200, 300dpi bzw. individuell einstellbar.
  • PDF-JPEG: Qualitätseinstellung (0 – 100)
  • Unterstützte Sprachen: Englisch, Deutsch, Französisch, Russisch, Schwedisch, Spanisch, Italienisch, Russisch/Englisch, Ukrainisch, Serbisch, Kroatisch, Polnisch, Dänisch, Portugiesisch, Holländisch, Tschechisch, Rumänisch, Ungarisch, Bulgarisch, Slovenisch, Litauisch, Estonisch, Türkisch

Folgende unsere Produkte haben bereits bzw. werde in Kürze standardmäßig ohne Aufpreis die iOCR.NET Funktionen implementiert haben: DirectScan, GenOCR, SpliRen, AutoOCR, Office2PDFA, MakePDFA.NET

iOCR.NET_#1 iOCR.NET_#2